近日,云從科技(688327)聯(lián)合上海交通大學(xué)、香港科技大學(xué)(廣州)等多所高校及科研機(jī)構(gòu),共同發(fā)布全球首個針對“空對空”場景的百萬級多模態(tài)反無人機(jī)視覺追蹤基準(zhǔn)UAV-Anti-UAV,同步推出基于Mamba架構(gòu)的強(qiáng)力基線模型MambaSTS。
據(jù)介紹,該成果填補(bǔ)了低空動態(tài)追蹤領(lǐng)域的技術(shù)空白,為反無人機(jī)實戰(zhàn)化應(yīng)用提供了核心支撐,標(biāo)志著我國在多模態(tài)大模型與低空安全技術(shù)融合領(lǐng)域取得重要突破。
隨著低空經(jīng)濟(jì)的蓬勃發(fā)展,無人機(jī)安全管控成為全球關(guān)注的焦點。傳統(tǒng)反無人機(jī)技術(shù)多集中于“空對地”或“地對空”場景,難以應(yīng)對追蹤者與目標(biāo)均高速飛行的“空中纏斗”場景——此類場景存在雙重動態(tài)干擾、極速尺度變化、運動模糊等多重挑戰(zhàn),現(xiàn)有技術(shù)往往難以精準(zhǔn)追蹤。
而此次云從科技聯(lián)合發(fā)布的UAV-Anti-UAV基準(zhǔn),則構(gòu)建了行業(yè)首個大規(guī)模標(biāo)準(zhǔn)測試床。該數(shù)據(jù)集包含1810個視頻序列、總幀數(shù)達(dá)105萬幀,總時長近9.85小時,涵蓋固定翼、多旋翼、垂直起降等5大類無人機(jī)目標(biāo)。該數(shù)據(jù)集不僅提供精細(xì)邊界框標(biāo)注,還新增自然語言描述標(biāo)注,支持視覺-語言跨模態(tài)追蹤研究,同時標(biāo)注了快速運動、光照變化等15種高挑戰(zhàn)屬性。從難度來看,其平均相對速度高達(dá)0.79,遠(yuǎn)超現(xiàn)有主流數(shù)據(jù)集,且包含大量微小目標(biāo)與劇烈尺度變化,堪稱反無人機(jī)追蹤領(lǐng)域的“地獄難度”測試基準(zhǔn)。
為應(yīng)對這一高難度任務(wù),研究團(tuán)隊推出MambaSTS基線模型。該模型創(chuàng)新融合空間、時間、語義三重學(xué)習(xí)能力,采用混合架構(gòu)設(shè)計:通過分層視覺Transformer提取多尺度空間特征,借助預(yù)訓(xùn)練LanguageMamba挖掘文本語義信息,幫助模型在模糊場景中精準(zhǔn)識別目標(biāo);其獨創(chuàng)的時間Token傳播機(jī)制,如同為模型賦予“視頻記憶”,能通過Mamba的選擇性掃描功能,留存歷史幀中目標(biāo)的軌跡與外觀信息,即便目標(biāo)被遮擋也能快速找回。
針對視頻追蹤的因果特性,模型還優(yōu)化為單向掃描機(jī)制,更契合實時追蹤需求。在50個主流深度追蹤算法的評測中,MambaSTS表現(xiàn)突出,在全部5項核心指標(biāo)上均排名第一,AUC達(dá)0.437、mACC達(dá)0.443,較第二名領(lǐng)先6.6個百分點。
值得關(guān)注的是,該模型在傳統(tǒng)“空對地”“地對空”數(shù)據(jù)集上同樣取得SOTA性能,證明其具備強(qiáng)大的泛化能力,并非局限于特定場景的“過擬合”模型。
在業(yè)內(nèi)看來,UAV-Anti-UAV基準(zhǔn)的發(fā)布,為行業(yè)提供了統(tǒng)一的技術(shù)評測標(biāo)準(zhǔn),將加速反無人機(jī)技術(shù)的迭代升級;MambaSTS模型的技術(shù)突破,則為實戰(zhàn)化應(yīng)用提供了高效解決方案,可廣泛應(yīng)用于安防監(jiān)控、空域管理、重大活動安保等場景。