Transformer Tracking

Xin Chen, Bin Yan, Jiawen Zhu, Dong Wang, Xiaoyun Yang and Huchuan Lu
1School of Information and Communication Engineering, Dalian University of Technology, China
2Peng Cheng Laboratory Remark AI

CVPR 2021

摘要:

        Correlation acts 在跟踪领域起着关键性作用,尤其是在最近流行的基于Siamese孪生网络的跟踪器。correlation operation是考虑模板与搜索区域之间的相似性的一个简单融合。然而,correlation operation本身是一个局部线性匹配过程,导致语义信息丢失,容易陷入局部最优,这可能是设计高精度跟踪算法的瓶颈。有没有比相关性(correlation)更好的特征融合方法?为了解决这个问题,受Transformer的启发,本文提出一种新的基于注意力的特征聚合网络,仅使用注意力,有效地聚合了模板和搜索区域的特征。具体而言,提出的方法包括基于self-attention的ego-context augment module模块和基于cross-attention的a cross-feature augment module。最后,提出了基于Siamese-like feature extraction backbone、设计的基于注意力的融合机制、和the classification and regression head(??)的Transformer 跟踪方法(命名TransT)。

1.引言

(1)对于大多数流行的跟踪器(如SiamFC、SiamRPN、ATOM),correlation在将模板和目标信息集成到ROI中起这关键作用。然而,correlation操作本身是一个线性匹配过程,会导致语义信息丢失,这会限制跟踪器模板和ROI之间复杂的非线性交互。因此,之前的模型必须通过引入fashion structure、使用的额外的模块,设计有效的在线更新等来提高非线性表示能力。这自然的就引出一个问题:与没有比correlation更好的特征融合方法?

        在本文中,受Transformer核心思想的启发,通过设计一个基于注意力的特征融合网络,提出一个新颖的Transformer跟踪算法(TransT)来解决上述问题。提出的特征聚合网络包括基于自注意力的ego-context augment module和基于cross-attention的cross-feature augment module。这种融合机制有效地集成了模板和ROI特征,产生了比correlation更多的语义特征图。

2.贡献:

(1)提出了一个新颖的Transformer跟踪框架,包含特征提取,Transformer-like fusion和头预测模块,Transformer-like fusion模块仅使用注意力,没有使用correlation,结合了模板和搜索区域的特征。

(2)设计了基于具有自注意力的an ego-context augment module和具有cross-attention的a cross-feature augment module的特征聚合网络。和基于correlation的特征聚合相比,本文提出的基于注意力的方法自适应得专注于有用的信息,比如边缘和相似目标等,并在距离特征之间建立关联,使得跟踪器获得更好的分类和回归结果。

3.相关工作

(1)基于孪生网络的方法近年来在跟踪领域颇受欢迎。主流的跟踪体系架构可以分为两部分:

  • 一部分是用来提取图像特征的主干网络
  • 另一部分是由基于correlation的网络计算模板和搜索区域之间的相似性

当前,许多流行的跟踪器依赖于correlation操作,但是忽略了两个问题:

  1. 基于correlation的网络没有充分利用全局环境,容易陷入局部最优解。
  2. 过correlation,语义信息在一定程度上丢失,这可能导致对目标边界的不准确预测。

因此࿰

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值