论文地址:https://arxiv.org/abs/2105.03817
1.本文针对什么问题
目前跟踪领域中通用的cross-correlation操作只能获得两个特征图中局部块之间的联系,当目标移动较大、有干扰时鲁棒性较差。
2.已有的工作是什么,有什么问题
基于Siamese的和基于DCF的跟踪器已经统治了目标跟踪领域,但是它们都使用cross-correlation操作来获得模板特征和搜索区域特征之间的联系,但这个操作只能获得两个特征中局部区域之间的联系,而不能获得全局的联系。
3.为了解决这个问题,做了什么工作
本文针对这个问题提出了一个使用transformer的encoder-decoder结构的跟踪器,通过transformer中的注意力机制来获取全局的依赖。核心步骤是对模板特征和搜索区域特征分别做自注意力操作,然后对两者做交叉注意力操作。
4.具体方法是什么

整体结构如上图所示,其中上面是离线部分,下面是在线更新部分。
4.1 离线部分:
-
特征提取网络:
对ResNet50进行修改后作为特征提取网络:只是用前四个stage,并且在第四个stage中不进行下采样*(扩大特征图大小),还将此阶段中所有的3x3卷积改为dilation rate=2的空洞卷积(提升感受野)*。backbone后接1x1卷积减少通道数来减少计算损耗。
-
transformer结构:

-
目标定位:
在transformer结构的后面接了三个分支,其中上面两个用于回归,最下面的一个用于分类。每个分支由三个1x1的卷积核组成,最后接一个sigmoid函数。
1)目标定位:分类分支会生成一个分类置信度图 Y ∈ [ 0 , 1 ] Y \in [0,1] Y∈[0,1],最大值所在位置即为目标位置。但是因为这个位置是在经过下采样的低分辨率特征图上的位置,单单通过乘以一个下采样率来将特征图上的位置映射回原图会存在一定的偏差,所以就添加了一个位置偏差预测的分支,预测特征图中每个位置映射回原图的偏差 Y ′ ∈ [ 0 , 1 ) Y' \in [0,1) Y′∈[0,1)(包括长和宽),然后原图中的位置为:
( x c , y c ) = s ⋅ ( a r g m a x ( Y ′ ) + O ( a r g m a x ( Y ′ ) ) ) ({x_c},{y_c}) = s \cdot (argmax({Y^\prime }) + O(argmax({Y^\prime }))) (xc,yc)=s⋅(argmax(Y′)+O(argmax(Y′)))
其中s是下采样率, Y ′ Y' Y′是分类置信度图 Y Y Y经过余弦窗口(cosine window)处理后的结果,argmax可以获得 Y ′ Y' Y′的最大值的位置索引。2)大小回归:图中第二个分支就是用来预测尺度因子,计算公式如下:
( w b b , h b b ) = ( W , H ) ∗ S ( a r g m a x ( Y ′ ) ) ({w_{bb}},{h_{bb}}) = (W,H)*S( argmax ({Y^\prime })) (wbb,hbb)=(W

本文提出了一种利用Transformer架构改进目标跟踪的方法,通过自注意力和交叉注意力机制解决传统cross-correlation方法的局限性。文章详细介绍了基于ResNet50的特征提取网络、Transformer结构、目标定位和尺度预测,以及在线更新的策略和多分支损失函数的设计。
最低0.47元/天 解锁文章
4960

被折叠的 条评论
为什么被折叠?



