Bridging Search Region Interaction with Template for RGB-T Tracking

最新推荐文章于 2025-09-15 23:59:52 发布

原创

最新推荐文章于 2025-09-15 23:59:52 发布 · 2.1k 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉

本文提出了一种新颖的模板桥接搜索区域交互(TBSI)模块，通过利用目标模板作为媒介，改善RGB和TIR搜索区域间的跨模态交互，提高RGB-T跟踪的性能。TBSI模块结合ViT架构，实现联合特征提取、搜索模板匹配和跨模态交互，实验结果显示在多个基准上达到最先进的水平。

桥接搜索区域与 RGB-T 跟踪模板的交互

Abstract：

RGB-T跟踪旨在利用RGB和TIR模态的相互增强和补充能力来改进各种场景下的跟踪过程，其中跨模态交互是关键组成部分。之前的一些方法直接连接 RGB 和 TIR 搜索区域特征以执行引入冗余背景噪声的粗略交互过程。许多其他方法从搜索帧中采样候选框，并对孤立的 RGB 和 TIR 框对进行各种融合方法，这限制了局部区域内的跨模态交互，并导致上下文建模不充分。为了缓解这些限制，我们提出了一种新颖的模板桥接搜索区域交互（TBSI）模块，该模块利用模板作为媒介，通过收集和分发目标相关对象和环境上下文来桥接 RGB 和 TIR 搜索区域之间的跨模式交互。原始模板也通过模板介质中丰富的多模式上下文进行更新。我们的 TBSI 模块被插入到 ViT 主干中，用于联合特征提取、搜索模板匹配和跨模式交互。对三个流行的 RGB-T 跟踪基准进行的大量实验表明，我们的方法实现了新的最先进的性能。

Introduction：

给定第一帧中单个目标对象的初始状态，单对象跟踪（SOT）的目标是在连续帧中定位目标对象。作为计算机视觉领域的一项基本任务，SOT 引起了研究人员的高度关注。然而，当前仅基于可见光（RGB）数据构建的SOT方法在极端成像条件（例如低照度和恶劣天气等）下变得脆弱，这促使结合热红外（TIR或T）数据以相互增强和补充。受益于热红外数据强大的夜间感光性和穿透能力，RGB-T跟踪具有广泛的潜在应用，例如视频监控处理[1]、智能机器人[5]和自动驾驶[8]。