用于高效 RGB-T 跟踪的统一单级变压器网络
Abstract:
现有的RGB-T跟踪网络大多以单独的方式提取模态特征,缺乏模态之间的交互和相互指导。这限制了网络适应目标的多种双模态外观以及模态之间的动态关系的能力。此外,这些网络遵循的三阶段融合跟踪范式极大地限制了跟踪速度。为了克服这些问题,我们提出了一个统一的单级 Transformer RGB-T 跟踪网络,即 USTrack,它通过自注意力机制将上述三个阶段统一为具有双嵌入层的单个 ViT(Vision Transformer)主干。通过这种结构,网络可以在模态交互作用下提取模板和搜索区域的融合特征。同时,对这些特征之间进行关系建模,有效地获得具有更好的目标背景区分度的搜索区域融合特征进行预测。此外,我们引入了一种基于模态可靠性的新颖特征选择机制,以减轻无效模态对预测的影响,进一步提高跟踪性能。
Introducton:
可见热(RGB-T)跟踪通过使用RGB和热信息极大地扩展了单目标跟踪(SOT)的应用场景,提高了SOT在光照变化、遮挡和极端天气等挑战性条件下的跟踪性能。因此,RGB-T跟踪成为近年来的研究热点。大多数RGB-T跟踪网络可以分为三个功能部分:特征提取、特征融合以及模板和搜索区域的融合特征之间的关系建模。得益于RGB跟踪的快速发展,现有的RGB-T跟踪网络直接采用RGB跟踪网络作为基本网络架构。他们继承了原有的特征提取和关系建模的方式,然后专注于融合模块的设计。它们的总体框架如图1

本文介绍了一种新的RGB-T跟踪方法USTrack,它通过将特征提取、融合和关系建模整合到单个ViT主干中,实现模态交互和高效跟踪。提出基于模态可靠性的特征选择机制,有效降低无效模态对预测的影响,提升了整体性能和速度。

最低0.47元/天 解锁文章
1935





