用于跟踪的联合特征学习和关系建模:单流框架
Introduction:
在这项工作中,我们着手通过统一的单流一级跟踪框架来解决上述问题。单流框架的核心思想是在早期阶段在模板和搜索区域(即原始图像对)之间架起自由的信息流,从而提取面向目标的特征并避免判别性信息的丢失。具体来说,我们将展平的模板和搜索区域连接起来,并将它们输入到质押的自注意力层中[44](在我们的实现中选择了广泛使用的视觉变换器(ViT)[12]),并且生成的搜索区域特征可以直接使用用于目标分类和回归,无需进一步匹配。放样的自注意力操作能够在模板和搜索区域之间进行迭代特征匹配,从而允许相互指导面向目标的特征提取。因此,模板和搜索区域特征都可以动态提取,具有很强的判别力。此外,所提出的框架在性能和速度 AO Score 之间实现了良好的平衡,因为模板和搜索区域的串联使得 onestream 框架高度可并行化,并且不需要额外的重型关系建模网络。
这项工作的主要贡献有三个方面:(1)我们通过结合特征提取和关系建模,提出了一种简单、简洁、有效的单流、单阶段跟踪框架。 (2)受目标与搜索区域各部分之间早期获得的相似度得分先验的启发,提出了一种网络内早期候选消除模块来减少推理时间。 (3) 我们进行了全面的实验,验证单流框架在性能、推理速度和收敛速度方面优于之前的 SOTA 双流跟踪器。由此产生的跟踪器 OSTrack 在多个跟踪基准上树立了新的最先进水平。
Method:
本节介绍建议的单流跟踪器 (OSTrack)。输入图像对被输入 ViT 主干以同时进行特征提取和关系建模,所得搜索区域特征直接用于后续目标分类和回归。该模型的概述如图 3(a)所示。