ROAM: Recurrently Optimizing Tracking Model论文笔记

最新推荐文章于 2025-02-14 07:09:46 发布

煎饼果子w

最新推荐文章于 2025-02-14 07:09:46 发布

阅读量2k

点赞数 1

文章标签：神经网络计算机视觉深度学习

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.youkuaiyun.com/qq_33931248/article/details/105175657

版权

论文地址： https://arxiv.org/abs/1907.12006
是CVPR 2020一篇利用LSTM解决目标追踪问题的论文。

先更新前面的一部分，后面的近期补上。

1. 近期工作

基于CF的trackers将响应生成公式化为傅里叶域中的逐元素乘法，以提高计算效率，本质上是对循环移位的样本进行卷积操作。
通过卷积LSTM循环生成target template filters ¹。
动态内存网络，将对象信息写入/读取可寻址的外存 ² 。
DaSiamRPN进行distractor-aware增量学习，使用target附近的难例来抑制distractors³。

上述方法的本质都是通过新生成的目标模板对旧的目标模板进行线性插值来实现模板更新的，主要的区别在于combining的时候如何控制权重。
提出Meta-tracker，解释如何在基于相关滤波和基于深度学习的tracker上嵌入元学习⁴。
pioneering work，设计了一个离线学习的梯度下降优化器，但对于大量的descent step显得力不从心⁵。
提出几种训练技术 ⁶：
- 参数缩放
- 与凸函数结合使用以协调优化器的学习过程
设计了层次RNN，动态适应input和output的缩放⁷ 。

2. 方法细节

由两个模块组成，

tracking model，可以resizable以适应形状变化。包含两个分支：（建立在backbone CNN 模型得到的特征图之上）

响应生成分支通过预测目标置信度得分图来确定目标，
bbox回归分支通过对滑动窗口产生的anchor，回归坐标的偏移量来估计目标的精确bbox的位置

offline learned neural optimizer，助力模型更新。

可以在线更新跟踪模型，适应appearance variations

2.1 Pipeline of ROAM++

pipeline

2.2 Resizable Tracking Model

使用双线性插值将预定义的convolution filter变为特定大小，这样可以在后续帧中不断优化这个滤波器。

tracking model $\theta^{(t)}$ 包含两个部分：correlation filter $\theta_{cf}^{(t)}$ 和bbox reg filter $\theta_{reg}^{(t)}$ ，通过warp到特定的大小来适应目标形状的变化：
$\theta^{(t)}=[\theta_{cf}^{(t)},\theta_{reg}^{(t)}]$

$\widetilde{\theta}_{cf}^{(t)}=\mathcal{W}(\theta_{cf}^{(t)},(f_r^{(t)},f_c^{(t)}))$

$\widetilde{\theta}_{reg}^{(t)}=\mathcal{W}(\theta_{reg}^{(t)},(f_r^{(t)},f_c^{(t)}))$

其中， $\mathcal{W}$ 表示通过双线性插值将convolution filter调整到特定大小 $f_h^{(t)},f_w^{(t)})$ ，这个大小通过以下公式进行计算：
$f_r^{(t)}=\lceil\frac{\rho h^{(t)}}{c}\rceil-\lceil\frac{\r$

最低0.47元/天解锁文章