Bridging Search Region Interaction with Template for RGB-T Tracking

本文提出了一种新颖的模板桥接搜索区域交互(TBSI)模块,通过利用目标模板作为媒介,改善RGB和TIR搜索区域间的跨模态交互,提高RGB-T跟踪的性能。TBSI模块结合ViT架构,实现联合特征提取、搜索模板匹配和跨模态交互,实验结果显示在多个基准上达到最先进的水平。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

桥接搜索区域与 RGB-T 跟踪模板的交互 

 Abstract:

        RGB-T跟踪旨在利用RGB和TIR模态的相互增强和补充能力来改进各种场景下的跟踪过程,其中跨模态交互是关键组成部分。之前的一些方法直接连接 RGB 和 TIR 搜索区域特征以执行引入冗余背景噪声的粗略交互过程。许多其他方法从搜索帧中采样候选框,并对孤立的 RGB 和 TIR 框对进行各种融合方法,这限制了局部区域内的跨模态交互,并导致上下文建模不充分。为了缓解这些限制,我们提出了一种新颖的模板桥接搜索区域交互(TBSI)模块,该模块利用模板作为媒介,通过收集和分发目标相关对象和环境上下文来桥接 RGB 和 TIR 搜索区域之间的跨模式交互。原始模板也通过模板介质中丰富的多模式上下文进行更新。我们的 TBSI 模块被插入到 ViT 主干中,用于联合特征提取、搜索模板匹配和跨模式交互。对三个流行的 RGB-T 跟踪基准进行的大量实验表明,我们的方法实现了新的最先进的性能。

 Introduction:

        给定第一帧中单个目标对象的初始状态,单对象跟踪(SOT)的目标是在连续帧中定位目标对象。作为计算机视觉领域的一项基本任务,SOT 引起了研究人员的高度关注。然而,当前仅基于可见光(RGB)数据构建的SOT方法在极端成像条件(例如低照度和恶劣天气等)下变得脆弱,这促使结合热红外(TIR或T)数据以相互增强和补充。受益于热红外数据强大的夜间感光性和穿透能力,RGB-T跟踪具有广泛的潜在应用,例如视频监控处理[1]、智能机器人[5]和自动驾驶[8]。 

        作为一项多模态视觉任务,RGB-T跟踪的关键是如何进行有效的跨模态交互。由于跟踪过程发生在带注释的初始帧引导的连续帧中,因此 RGB 和 TIR 模式的搜索帧之间的跨模式交互成为主要焦点。如图 1 (a) 所示,一些先前的方法 [16, 44] 直接连接来自强基跟踪器 [4, 40] 编码器的整个 RGB 和 TIR 搜索帧的特征。这种简单的方式往往会引入冗余的背景噪声信息,使得跨模态交互过于粗糙,从而损害模型的判别能力。此外,还有许多其他方法[14,27,28,37,39,49]从搜索帧中的高斯分布中采样候选框(RoIs),并基于注意力、门控机制或数据集进行各种融合算子属性等,以融合 RGB 和 TIR 模式的每对 RoI 特征,如图 1 (b) 所示。然后,融合的 RoI 特征分别输入二元分类器以区分目标对象。然而,每对 RoI 仅从搜索帧中裁剪一小部分局部特征,包含有限的前景和背景信息。因此,每个孤立的RoI对之间的跨模态交互可能会导致搜索框架中全局环境上下文的建模不充分,并限制两种模态的相互增强和互补效果。

图1我们的跨模式交互方法与以前的方法之间的比较。 (a) RGB 和 TIR 搜索帧的特征直接连接。 (b) 候选框 (RoI) 从 RGB 和 TIR 搜索帧中采样,并与门控或注意机制成对融合。 (c) 我们的方法利用模板标记作为媒介来桥接 RGB 和 TIR 搜索区域标记之间的跨模式交互。 

        鉴于上述讨论,我们认为 RGB 和 TIR 搜索帧或候选 RoI 之间的直接跨模态交互在全面利用互补的多模态线索来促进跟踪过程方面仍然存在局限性。因此,我们提出了一种新颖的方案,利用目标模板作为媒介来桥接 RGB 和 TIR 搜索区域之间的跨模式交互,如图 1 (c) 所示。促使我们提倡该方案的主要优势在于模板包含目标对象的原始多模态信息,这可以作为从搜索区域中提取目标相关对象和环境上下文的有力指导,以实现自适应和精确的信息增强和补充。在跨模态交互过程中,还可以通过模板桥接来减少搜索区域中其他干扰因素的背景噪声。 

         为了实现上述方案,我们设计了模板桥接搜索区域交互(TBSI)模块。具体来说,我们的 TBSI 模块首先融合 RGB 和 TIR 模板的特征以获得多模态上下文介质。由于交叉注意力机制 [36] 是一种有效且广泛采用的上下文聚合实践,因此我们的 TBSI 还利用它,以融合模板作为查询,以 TIR 搜索区域特征作为键和值,将目标相关的 TIR 上下文信息收集到模板介质。然后,RGB 搜索区域特征作为查询,融合模板作为键和值,将目标相关的 TIR 上下文从介质分发到 RGB 搜索区域。类似地,目标相关的 RGB 上下文也被收集并通过模板介质以相反的方向分发到 TIR 搜索区域。最后,融合模板中聚合的综合多模态信息被传输回原始 RGB 和 TIR 模板,以使用从搜索区域收集的丰富多模态上下文来更新它们。

        此外,大多数现有的RGB-T跟踪方法[14,27,28,37,39,49]采用MDNet[32]和VGG-M[34]作为基础跟踪器,其分类分支的数量等于训练的数量序列,这在很大程度上限制了它们的容量和可扩展性。受到 Vision Transformer (ViT) [12] 捕获长距离依赖性的强大能力及其最近在 SOT [7,24,42] 上的成功的启发,我们还将 ViT 扩展到 RGB-T 跟踪,以进行联合特征提取、搜索模板匹配,以及跨模式交互。我们的 TBSI 模块插入 ViT 基础跟踪器中,以桥接 Transformer 层内的模内信息流,以实现有效的 RGB-T 跟踪。

        我们的贡献总结如下:(1)我们提出了一种新颖的模板桥接搜索区域交互(TBSI)模块,该模块利用融合目标模板作为媒介来桥接 RGB 和 TIR 搜索区域之间的跨模态交互并更新原始模板并形成自适应、精准的信息增强。 (2) 我们将 ViT 架构与所提出的 TBSI 模块扩展到 RGB-T 跟踪,以进行联合特征提取、搜索模板匹配和跨模式交互,据我们所知,以前的方法尚未对此进行探索。 (3) 大量实验表明,我们的方法在三个流行的 RGB-T 跟踪基准上实现了新的最先进的性能。

Related Work:

        1. Single Object Tracking

        2.RGB-T Tracking

        一般的SOT方法仅在可见光数据上进行训练,因此在极端成像条件下容易遇到故障。因此,热红外数据已成为广泛采用的信息源[14,16,20,27,28,37,39,44,46,47,49],与可见光数据相互补充,以增强跟踪器的鲁棒性

        然而,先前的RGB-T跟踪方法在RGB和TIR搜索帧或候选RoI之间进行融合,这不可避免地引入了背景噪声并限制了多模态互补效果,产生粗糙且不充分的跨模态交互。为了缓解这些限制,我们提出了一个 TBSI 模块,该模块利用目标模板作为媒介来桥接 RGB 和 TIR 搜索区域之间的跨模式交互,从而使用目标相关对象和环境上下文实现自适应和精确的信息增强和补充。

Method:

        我们方法的总体框架如图 2 所示。输入的 RGB 和 TIR 搜索区域和模板图像首先被分割并展平为补丁(标记)序列,然后输入到一系列共享 Transformer 块中以进行联合特征提取和搜索-每种模式内的模板匹配。我们提出的 TBSI 模块插入 Transformer 块之间,以桥接跨模式搜索区域与融合模板标记的交互,作为目标相关上下文收集和分发的媒介。最后,跟踪头将来自骨干网的连接 RGB 和 TIR 搜索区域特征作为输入来预测目标的当前状态。

       

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值