
桥接搜索区域与 RGB-T 跟踪模板的交互
Abstract:
RGB-T跟踪旨在利用RGB和TIR模态的相互增强和补充能力来改进各种场景下的跟踪过程,其中跨模态交互是关键组成部分。之前的一些方法直接连接 RGB 和 TIR 搜索区域特征以执行引入冗余背景噪声的粗略交互过程。许多其他方法从搜索帧中采样候选框,并对孤立的 RGB 和 TIR 框对进行各种融合方法,这限制了局部区域内的跨模态交互,并导致上下文建模不充分。为了缓解这些限制,我们提出了一种新颖的模板桥接搜索区域交互(TBSI)模块,该模块利用模板作为媒介,通过收集和分发目标相关对象和环境上下文来桥接 RGB 和 TIR 搜索区域之间的跨模式交互。原始模板也通过模板介质中丰富的多模式上下文进行更新。我们的 TBSI 模块被插入到 ViT 主干中,用于联合特征提取、搜索模板匹配和跨模式交互。对三个流行的 RGB-T 跟踪基准进行的大量实验表明,我们的方法实现了新的最先进的性能。
Introduction:
给定第一帧中单个目标对象的初始状态,单对象跟踪(SOT)的目标是在连续帧中定位目标对象。作为计算机视觉领域的一项基本任务,SOT 引起了研究人员的高度关注。然而,当前仅基于可见光(RGB)数据构建的SOT方法在极端成像条件(例如低照度和恶劣天气等)下变得脆弱,这促使结合热红外(TIR或T)数据以相互增强和补充。受益于热红外数据强大的夜间感光性和穿透能力,RGB-T跟踪具有广泛的潜在应用,例如视频监控处理[1]、智能机器人[5]和自动驾驶[8]。
&

本文提出了一种新颖的模板桥接搜索区域交互(TBSI)模块,通过利用目标模板作为媒介,改善RGB和TIR搜索区域间的跨模态交互,提高RGB-T跟踪的性能。TBSI模块结合ViT架构,实现联合特征提取、搜索模板匹配和跨模态交互,实验结果显示在多个基准上达到最先进的水平。
最低0.47元/天 解锁文章
2531






