【论文阅读】Know Your Surroundings: Exploiting Scene Information for Object Tracking

最新推荐文章于 2026-01-06 21:06:24 发布

原创

最新推荐文章于 2026-01-06 21:06:24 发布 · 1.1k 阅读

26 ·

CC 4.0 BY-SA版权

文章标签：

#论文阅读 #人工智能 #深度学习 #目标跟踪

论文笔记

发表时间：2020
期刊会议：ECCV
方向分类：目标跟踪

研究内容

做了什么：

本文提出了一个能够在视频序列中传播目标附近场景信息的跟踪结构，这种场景信息被用来实现提高目标预测的场景感知能力。

解决了什么问题：

已存在的跟踪器只依靠外观来跟踪，没有利用任何周围场景中的信息，容易被相似的物体干扰。

现状不足

已存在的跟踪器只依靠外观来跟踪，没有利用任何周围场景中的信息；
在线更新模板的方法虽然也利用了已跟踪的帧，但是这样的策略不能捕捉到场景中其他目标的位置和特点。

创新点

提出了一个新的跟踪结构，能捕捉场景信息，并将其表示为一个位置状态向量（state vector）；
提出了一个传播模块，该模块能将上一帧中目标附近的对象位置状态映射到后续帧；
提出了一个预测器模块，该模块能够有效的融合目标外观模型的输出与场景信息对目标位置进行预测；
使用RNN网络模块来更新新的场景信息。

总体架构

在这里插入图片描述

四个模块：1.Propagation Module；2.Appearance Model；3.Target Predictor；4.State Update

总体思路：在传统的跟踪流程中增加一个state vector（传统跟踪是指仅使用appearance model和predictor），作用是保存上一帧中目标附近的场景信息并映射到当前帧。实际上，这个向量表示了上一帧中当前位置是属于背景、目标还是相似干扰物。

跟踪流程：使用两个线索进行跟踪：1）目标的外观，2）场景信息（目标附近其他对象的位置信息）。对于目标的外观，使用正常的跟踪流程即可得到。例如DiMP中预测一个目标外观模型，然后使用这个模型在测试帧上进行卷积得到最后的响应图 $s_t$ 。对于场景信息，由state vector得到。给定前一帧的场景信息 $h_{t-1}$ ，通过Propagation 模块得到当前帧的场景信息 $h^t−1{\hat h_{t - 1}}$ ，和 $h^t−1{\hat h_{t - 1}}$ 中每个位置的值的置信度 $ξt{\xi _t}$ 。最后将通过外观模型得到的响应图 $s_t$ ，当前帧的场景信息 $h^t−1{\hat h_{t - 1}}$ ，以及置信度 $ξt{\xi _t}$ 输入到最后的预测模块中得到最后的位置响应图。
在这里插入图片描述

模块细节

State 向量的构造

为了知道目标周围的场景信息，本文为目标附近的每个区域维持了一个state 向量。具体的，对于深度特征 $x_t$ 中的每个空间位置 $\in \Omega$ ，作者设置了一个S维的state向量 $h^r$ ，即 $\in {\mathbb{R}^{W \times H \times S}}$ 。这些state向量包含了有益于单目标跟踪的信息，例如他包含了这个位置对应的是目标，背景还是相似干扰物的信息。

在首次跟踪时，使用一个包含了两个卷积层的小网络 $Υ\Upsilon$ 来初始化state向量，这个网络使用初始帧中目标标注 $B_0$ 作为输入，生成一个特定目标位置的单通道标签图。

在传播过程中，给定测试帧 $t$ ，使用propagation模块将state向量 $h_{t-1}$ 从前一帧的位置转换到当前帧的位置，即 $(h^t−1,ξt)=Π(xt,xt−1,ht−1)({\hat h_{t - 1}},{\xi _t}) = \Pi ({x_t},{x_{t - 1}},{h_{t - 1}})$ . 其中 $ξt{\xi _t}$ 表示传播后每个位置的state向量的置信度。

在更新过程中，使用最后得到的位置响应图 $ςt{\varsigma _t}$ 和外观模型预测得到的响应图 $s_t$ 来更新state向量。简单来说就是使用当前帧的响应图信息来更新场景信息，例如重新设置不正确的信息，将新进入的对象标记为干扰物。