论文地址: https://arxiv.org/abs/1907.12006
是CVPR 2020一篇利用LSTM解决目标追踪问题的论文。
先更新前面的一部分,后面的近期补上。
文章目录
1. 近期工作
-
基于CF的trackers将响应生成公式化为傅里叶域中的逐元素乘法,以提高计算效率,本质上是对循环移位的样本进行卷积操作。
-
通过卷积LSTM循环生成target template filters 1。
-
动态内存网络,将对象信息写入/读取可寻址的外存 2 。
-
DaSiamRPN进行distractor-aware增量学习,使用target附近的难例来抑制distractors3。
上述方法的本质都是通过新生成的目标模板对旧的目标模板进行线性插值来实现模板更新的,主要的区别在于combining的时候如何控制权重。
-
提出Meta-tracker,解释如何在基于相关滤波和基于深度学习的tracker上嵌入元学习4。
-
pioneering work,设计了一个离线学习的梯度下降优化器,但对于大量的descent step显得力不从心5。
-
提出几种训练技术 6:
- 参数缩放
- 与凸函数结合使用以协调优化器的学习过程
-
设计了层次RNN,动态适应input和output的缩放7 。
2. 方法细节
由两个模块组成,
- tracking model,可以resizable以适应形状变化。包含两个分支:(建立在backbone CNN 模型得到的特征图之上)
- 响应生成分支通过预测目标置信度得分图来确定目标,
- bbox回归分支通过对滑动窗口产生的anchor,回归坐标的偏移量来估计目标的精确bbox的位置
- offline learned neural optimizer,助力模型更新。
- 可以在线更新跟踪模型,适应appearance variations
2.1 Pipeline of ROAM++
2.2 Resizable Tracking Model
使用双线性插值将预定义的convolution filter变为特定大小,这样可以在后续帧中不断优化这个滤波器。
tracking model θ ( t ) \theta^{(t)} θ(t)包含两个部分:correlation filter θ c f ( t ) \theta_{cf}^{(t)} θcf(t)和bbox reg filter θ r e g ( t ) \theta_{reg}^{(t)} θreg(t),通过warp到特定的大小来适应目标形状的变化:
θ ( t ) = [ θ c f ( t ) , θ r e g ( t ) ] \theta^{(t)}=[\theta_{cf}^{(t)},\theta_{reg}^{(t)}] θ(t)=[θcf(t),θreg(t)]
θ ~ c f ( t ) = W ( θ c f ( t ) , ( f r ( t ) , f c ( t ) ) ) \widetilde{\theta}_{cf}^{(t)}=\mathcal{W}(\theta_{cf}^{(t)},(f_r^{(t)},f_c^{(t)})) θ cf(t)=W(θcf(t),(fr(t),fc(t)))
θ ~ r e g ( t ) = W ( θ r e g ( t ) , ( f r ( t ) , f c ( t ) ) ) \widetilde{\theta}_{reg}^{(t)}=\mathcal{W}(\theta_{reg}^{(t)},(f_r^{(t)},f_c^{(t)})) θ reg(t)=W(θreg(t),(fr(t),fc(t)))
其中, W \mathcal{W} W表示通过双线性插值将convolution filter调整到特定大小 ( f h ( t ) , f w ( t ) ) (f_h^{(t)},f_w^{(t)}) (fh(t),fw(t)),这个大小通过以下公式进行计算:
f r ( t ) = ⌈ ρ h ( t ) c ⌉ − ⌈ ρ h ( t ) c ⌉ m o d 2 + 1 f_r^{(t)}=\lceil\frac{\rho h^{(t)}}{c}\rceil-\lceil\frac{\r