主要工作:
提出一个基于检测器的多目标跟踪框架。
主要贡献:
- 提出一种多目标跟踪器,利用检测器的边界框回归进行目标边界框的临时配准(利用跟踪在当前帧的边界框预测其在下一帧的边界框)。
- 利用行人重识别孪生网络(利用行人重识别匹配失效跟踪与检测,重新激活匹配上的失效跟踪,并用被匹配的检测作为其在当前帧的位置)和基于相机运动补偿的运动模型(利用强化的相关系数最大化进行图像配准,解决不稳定的相机运动造成帧间目标位移较大而导致的匹配出错问题)来扩展原始跟踪器 。
- 详细研究了多目标跟踪中失败情况和具有挑战性的场景(能见度低的场景,目标尺寸较小的场景,低帧率的场景),显示没有一个专门的跟踪方法能够优于本文提出的基于检测器回归的方法。
- 提出了一种新的利用检测器的多目标跟踪范式,使研究人员可以关注其他更复杂的跟踪问题。进行了一个指明最具前景的研究方向的扩展研究(利用gt信息来代替跟踪过程中的一个或多个操作,例如利用gt信息来进行跟踪killing策略,利用gt信息来进行边界框回归,利用gt信息进行运动模型,利用gt信息进行行人重识别)。
逐帧跟踪方式
如图所示,对于给定帧:
- 将每个跟踪在t-1帧的边界框输入到检测器中得到对应目标在t帧的边界框 b t b^t bt和分类分数 s t s^t st。
- 利用每个跟踪的分类分数 s k t s_k^t skt kill潜在的被遮挡跟踪。
- 利用目标检测器得到t帧的检测集 D t D^t Dt(或者公共检测集)。
- 将检测集 D t D^t Dt中与当前帧的目标边界框 b t b^t bt没有显著IOU的检测初始化为新跟踪。
整体跟踪流程
伪代码表示
利用公开检测集的整体跟踪流程可以用下面的伪代码表示得到(不包括行人重识别与运动模型):
// 有序图像列表表示的单个视频序列
I I I={
i 0 i_0 i0, i 1 i_1 i1, …, i T − 1 i_{T-1} iT−1}, i t i_t it表示t帧的图像。
// 公共检测集
D D D={
D 0 D_0 D0, D 1 D_1 D1, …, D T − 1 D_{T-1} DT−1}, D t D_t Dt表示t帧的检测列表。
// 目标的跟踪轨迹集
T T T={
T 1 T_1 T1, T 2 T_2 T2, …, T k T_k Tk}
// 有序边界框列表
T k T_k Tk={
b t 1 k b_{t_1}^k bt1k, b t 2 k b_{t_2}^k bt2k, …, b t N k b_{t_N}^k btNk | 0 ≤ \le ≤ t 1 t_1 t1, t 2 t_2 t