[阅读心得] 多目标跟踪经典论文——JDE
【论文】https://arxiv.org/pdf/1909.12605.pdf
【代码】https://github.com/Zhongdao/Towards-Realtime-MOT
写在前面
Towards Real-Time Multi-Object Tracking是2019年清华大学发表的多目标跟踪论文,其创新性地将目标检测环节和外观特征信息提取环节两部分融合设计为一个网络,从而极大地提升了多目标跟踪算法的推理速度,达到了接近实时地帧数(near real-time),也为后序MOT的发展(如FairMOT)提供参考。但是笔者认为可能仍然没有完全解决Detection和REID两任务之间的矛盾。
1. 摘要
目前的多目标跟踪(MOT)算法主要遵从“检测后跟踪”的范式。顾名思义,其包含两个阶段:
1)检测模型获得目标的位置信息。
2)外观特征向量提取模型获得向量并用于数据关联。
分别执行这两个阶段会导致严重的效率问题,整个运行时间基本等于两阶段分别执行时间之和。而目前提升MOT实时性的工作主要集中于数据关联阶段,因为现在所说的“real-time MOT”通常指的是“real-time association step”,而并非真实的整个MOT算法的实时性
该论文提出了一种将“目标检测”与“特征向量提取”任务依赖一个共享模型学习的MOT网络设计方式:
1)将特征向量(embedding)提取网络放入单阶段目标检测模型中,从而能够通过一个网络输出这两个任务所需的结果。
2)提出了一种新的,简单且快速的数据关联方法,适用于上述联合网络。
最终经过实验验证,提出的MOT算法速度大幅提升、精度和分离式(SDE)的MOT算法中的SOTA基本持平。
2. Introduction
如今,多目标跟踪算法(MOT)范式主要有三种:
- 分离式:SDE模式,先用Detection网络获得BBox,再将bbox输入REID网络提取特征
- 两阶段式:two-stage模式,先用RPN网络找到目标对应特征图,再将特征图输入REID网络提取特征
上述两种方法本质上都是“两阶段”,只不过主要区别在于输入进REID网络的是图像(re-sampled pixels)还是特征图(re-sampled features) - 联合式:JDE模型,本文新提出,将检测任务和REID任务融合到一个网络中去,即Joint learns the Detectors and Embedding model。
三种范式的结构图如下:
3. Joint Learning of Detection and Embedding(JDE)
3.1 Problem Settings
希望建立一个Joint learning模型,满足如下要求:
- 精准地检测出目标位置
- 提取出的特征向量满足:连续帧之间,同ID的的目标相似度高、不同ID的目标相似度低。其中,相似度可以用欧氏距离或余弦距离来衡量。
Technically, if the two objectives are both satisfied, even a simple association strategy, e.g., the Hungarian algorithm, would produce good tracking results.
最后,如论文作者所说,如果设计的JDE网络能够满足上述两个要求,那么不需要设计复杂的association规则就能够较好地实现跟踪。
3.2 Architecture Overview
特征提取网络采用Darknet53,后面接特征金字塔结构FPN,输出结果为分别对原图下采样1/8. 1/16. 1/32倍。输出维度为 ( 6 A + D ) ∗ H ∗ W (6A+D) *H*W (6A+D)∗H∗W,其中, A A A表示预设的anchor数, D D D表示外观特征向量的维数。其output主要由三部分构成:
1 ) the box classification results of size 2 A ∗ H ∗ W 2A*H*W 2A∗H∗W
2 ) the box regression coefficients of size 4 A ∗ H ∗ W 4A*H*W 4A∗H∗W
3 ) the dense embedding map of size D ∗ H ∗ W D*H*W D∗H∗W
3.3 Learning to Detect
检测部分的设计主要包括anchor设定、正负例判定、损失函数设计三部分。
- anchors相关设置
anchors数目设置为12个,即每个通道分配3个anchor,anchor的ratio设置为常用值1:3,尺寸根据training dataset重新聚类。 - 正负例判定
I O U > 0.5 IOU > 0.5 IOU>0.5, 则判定为前景
I O U < 0.4 IOU < 0.4 IOU<0.4, 则判定为背景
Our preliminary experiment indicates that these thresholds effectively suppress false alarms, which usually happens under heavy occlusions.
- 损失函数
检测环节的损失函数主要由两部分构成,前景/背景分类(foreground/background classification) 和 位置回归(bounding box regression)。
1)前景/背景分类: L α \mathcal L_\alpha