从空地对抗到空战:首个无人机间追踪百万级基准与时空语义基线MambaSTS深度解析

当今视觉追踪领域,一项全新任务正引发学术界和工业界的关注。这项被称为「无人机对抗无人机」的挑战将追踪技术的难度推向了全新高度。

近期,来自香港科技大学(广州)、上海交通大学、中山大学、中国科学院信息工程研究所和云从科技的联合团队发布了题为《How Far are Modern Trackers from UAV-Anti-UAV? A Million-Scale Benchmark and New Baseline》的突破性研究。

这项研究不仅仅提出了新的任务范式,更是构建了一个百万级规模的基准数据集,并对现有50种先进追踪器进行了全面测评,结果令人震惊。

图片1.png

论文地址:https://arxiv.org/pdf/2512.07385

项目地址:https://github.com/983632847/Awesome-Multimodal-Object-Tracking


一、无人机追踪新篇章:从“空地对抗”到“空战”

当前的无人机相关追踪研究主要分为两种模式。第一种是无人机追踪地面目标,如车辆或行人,此时追踪平台动态但目标相对静止。

另一种是地面摄像头追踪空中无人机,目标动态而观测平台静止。

这两种模式都无法模拟真实的空中对抗环境——当一架无人机需要追击另一架无人机时,双方都处于高速、剧烈的运动中。

研究团队将这种双向动态干扰称为“dual-dynamic disturbances”,它导致了视角急剧变化、背景快速移动和目标运动模糊等一系列复杂问题。

这正是UAV-Anti-UAV任务的核心挑战所在。

图片2.png


二、百万级基准:打造真实世界的空中战

为了推动这一新兴领域的发展,研究团队从零构建了一个超大规模、高质量标注的数据集。

这个数据集包含 1810个视频序列,总计105万标注帧,涵盖了固定翼、多旋翼、垂直起降、FPV无人机和无人直升机等五种目标无人机类型。

图片3.png

与UAV123、Anti-UAV318等现有基准相比,新数据集不仅在规模上遥遥领先,更在多个维度上实现了突破:

  • 多模态创新:首次为每个视频序列提供简洁的自然语言描述,为视觉-语言多模态追踪开辟了新途径;

图片4.png

  • 极端挑战性:数据集标注了15种高难度追踪属性,如快速运动、光照变化和相似干扰物等。数据分析显示,新数据集在光照变化范围和目标相对速度上比现有基准更为“极端”,更贴近真实复杂环境;

图片5.png

图片6.png

图片7.png

  • 真实场景覆盖:数据采集自多样化真实环境,确保算法在实际应用中的鲁棒性。

目前Coovally官网已有Vistrone等权威无人机开源数据集免费为用户提供,并且还有可直接部署应用于大疆无人机的算法模型,无需重新修改部署转换具体文章可参考:VisDrone数据集,专为无人机视觉任务打造

Coovally平台不仅提供模型资源,还可以帮助你提供AI解决方案,可以扫描二维码,我们来给你提供解决方案!!

小助手二维码.png

点击阅读原文,即可体验Coovally平台!


三、MambaSTS:时空语义融合的追踪新框架

面对这一高难度任务,研究团队提出了MambaSTS——一种专为时空语义集成学习设计的新框架。

图片8.png

MambaSTS的核心创新在于巧妙地结合了Transformer和Mamba两大架构的优势:

  • Transformer提供强大的全局空间建模能力,提取丰富的视觉特征;

  • Mamba以线性复杂度高效处理长序列数据,建立视频帧间的长期上下文关系。

具体实现中,模型将模板图像、搜索图像和语言描述作为多模态输入。设计了一个“时间令牌传播”机制,可视为一个“记忆单元”。

这个单元持续收集和压缩过去帧中关于目标的关键信息(如外观、运动状态),然后将这份“记忆”传递给当前帧的处理过程。

即使目标在某一瞬间被完全遮挡或因高速运动而变得模糊,模型依然能依靠长期记忆保持对目标的稳定认知。最终,统一的时空语义网络将这些信息深度融合,通过无锚框追踪头预测目标的精确位置。


四、实验结果:现有追踪器在“空战”中全面溃败

研究团队对50种当前最先进的追踪器进行了全面评估,结果令人深思:现有方法在UAV-Anti-UAV任务上表现普遍不足。

图片9.png

从整体性能曲线看,大部分追踪器的成功率(Success/AUC)都处于较低水平。而论文提出的MambaSTS基线模型凭借其出色的时空建模能力,取得了43.7%的AUC得分,显著领先于其他方法。

图片10.png

分析不同追踪属性下的表现发现,现有追踪器在处理光照剧烈变化、相似物体干扰、运动模糊和完全遮挡等挑战时尤其力不从心。

消融实验充分证明了MambaSTS各个组件的有效性。从强大的基线模型OSTrack(AUC 27.8%)开始,通过逐步加入时间建模、空间建模和语义建模模块,性能最终提升至43.7%,相对涨幅超过57%,效果显著。


五、意义与展望

这项研究的价值不仅在于技术突破,更在于它为低空经济安全提供了关键技术支撑。随着无人机在物流、巡检、娱乐等领域的广泛应用,如何防止无人机滥用、保障低空安全已成为迫在眉睫的问题。

UAV-Anti-UAV技术有望应用于无人机拦截、禁飞区防护、重要设施保护等场景,成为低空安全的“智能守护者”。

从学术角度看,这项研究开辟了视觉追踪的新方向,挑战了现有算法的极限,推动了多模态、长时序理解等技术的发展。

随着低空经济的蓬勃发展,无人机对抗无人机的技术将成为保障安全的关键屏障。这项研究不仅提出了挑战,更指明了方向——在这个全新的“空战”时代,视觉追踪技术必须迎接更复杂、更动态、更真实的考验。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值