论文笔记
发表时间:2020
期刊会议:ECCV
方向分类: 目标跟踪
研究内容
做了什么:
本文提出了一个能够在视频序列中传播目标附近场景信息的跟踪结构,这种场景信息被用来实现提高目标预测的场景感知能力。
解决了什么问题:
已存在的跟踪器只依靠外观来跟踪,没有利用任何周围场景中的信息,容易被相似的物体干扰。
现状不足
- 已存在的跟踪器只依靠外观来跟踪,没有利用任何周围场景中的信息;
- 在线更新模板的方法虽然也利用了已跟踪的帧,但是这样的策略不能捕捉到场景中其他目标的位置和特点。
创新点
- 提出了一个新的跟踪结构,能捕捉场景信息,并将其表示为一个位置状态向量(state vector);
- 提出了一个传播模块,该模块能将上一帧中目标附近的对象位置状态映射到后续帧;
- 提出了一个预测器模块,该模块能够有效的融合目标外观模型的输出与场景信息对目标位置进行预测;
- 使用RNN网络模块来更新新的场景信息。
总体架构
四个模块:1.Propagation Module;2.Appearance Model;3.Target Predictor;4.State Update
总体思路:在传统的跟踪流程中增加一个state vector(传统跟踪是指仅使用appearance model和predictor),作用是保存上一帧中目标附近的场景信息并映射到当前帧。实际上,这个向量表示了上一帧中当前位置是属于背景、目标还是相似干扰物。
跟踪流程:使用两个线索进行跟踪:1)目标的外观,2)场景信息(目标附近其他对象的位置信息)。对于目标的外观,使用正常的跟踪流程即可得到。例如DiMP中预测一个目标外观模型,然后使用这个模型在测试帧上进行卷积得到最后的响应图sts_tst。对于场景信息,由state vector得到。给定前一帧的场景信息 ht−1h_{t-1}ht−1 ,通过Propagation 模块得到当前帧的场景信息h^t−1{\hat h_{t - 1}}h^t−1,和h^t−1{\hat h_{t - 1}}h^t−1中每个位置的值的置信度ξt{\xi _t}ξt。最后将通过外观模型得到的响应图sts_tst,当前帧的场景信息h^t−1{\hat h_{t - 1}}h^t−1,以及置信度ξt{\xi _t}ξt输入到最后的预测模块中得到最后的位置响应图。
模块细节
- State 向量的构造
- 为了知道目标周围的场景信息,本文为目标附近的每个区域维持了一个state 向量。具体的,对于深度特征xtx_txt中的每个空间位置r∈Ωr \in \Omegar∈Ω,作者设置了一个S维的state向量hrh^rhr,即h∈RW×H×Sh \in {\mathbb{R}^{W \times H \times S}}h∈RW×H×S。这些state向量包含了有益于单目标跟踪的信息,例如他包含了这个位置对应的是目标,背景还是相似干扰物的信息。
- 在首次跟踪时,使用一个包含了两个卷积层的小网络Υ\UpsilonΥ来初始化state向量,这个网络使用初始帧中目标标注B0B_0B0作为输入,生成一个特定目标位置的单通道标签图。
- 在传播过程中,给定测试帧ttt,使用propagation模块将state向量ht−1h_{t-1}ht−1从前一帧的位置转换到当前帧的位置,即(h^t−1,ξt)=Π(xt,xt−1,ht−1)({\hat h_{t - 1}},{\xi _t}) = \Pi ({x_t},{x_{t - 1}},{h_{t - 1}})(h^t−1,ξt)=Π(xt,xt−1,ht−1). 其中ξt{\xi _t}ξt表示传播后每个位置的state向量的置信度。
- 在更新过程中,使用最后得到的位置响应图ςt{\varsigma _t}ςt和外观模型预测得到的响应图sts_tst来更新state向量。简单来说就是使用当前帧的响应图信息来更新场景信息,例如重新设置不正确的信息,将新进入的对象标记为干扰物。
- State 传播模块
这一部分对应于propagation module,作用是将上一帧中目标附近各个位置对应的场景信息传播到当前帧。
输入:前一帧的深度特征xt−1x_{t-1}x