A Simple Baseline for Multi-Object Tracking
论文信息
Paper:[CVPR2020] A Simple Baseline for Multi-Object Tracking
Link : https://arxiv.org/abs/2004.01888
Code : https://github.com/ifzhang/FairMOT/
背景
多目标跟踪(MOT)是计算机视觉领域的一个重要问题。其目的是估计视频中多个感兴趣目标的轨迹。目前多目标追踪任务的解决方法通常分为两类:
two-step MOT: 首先用检测模型确定图像中感兴趣的对象的边界框,然后用关联模型为每个边界框提取重识别(Re-ID)特征,并根据在特征上定义的某些度量将其与一个现有跟踪结果联系起来。但是,这两个网络不共享特征,因此无法以视频帧速率执行推断。
one-shot MOT: 同时进行目标检测和Re-ID特征提取,通过共享大部分计算来减少推理时间。但是准确性显着下降,而且存在目标ID关联不正确的问题。
关键性因素分析
1、基于anchor的方法不适用于Re-ID任务
首先,对应于不同图像块的多个anchor可能负责估计同一目标的id,这会导致严重的歧义。此外,通常会将特征图进行下采样缩小为原来的1/81/81/8 以平衡精度和速度,这对于Re-ID太过粗糙,因为目标中心可能与在粗糙锚点位置提取的特征不一致。

文章通过将MOT问题视为高分辨率特征图上的像素级关键点(目标中心)估计和id分类问题来解决该问题。
2、多层特征聚合
对于MOT特别重要,因为Re-ID特征需要利用低级和高级特征来适应大型和小型的目标。研究者在实验中观察到,由于提高了处理尺度变化的能力,可以有效减少one-shot方法的id转换数量。
3、Re-ID特征维度
以前的Re-ID方法通常学习高维特征,并在其基准测试中取得了可喜的结果。但是,文章发现低维特征实际上更适合MOT,因为MOT任务的训练图像比Re-ID少,学习低维特征有助于减少过拟合小数据的风险,并提高跟踪的鲁棒性。
方法

文章采用anchor-free对象检测方法来估计高分辨率特征图上的目标中心。消除锚点减轻了歧义性问题,并且高分辨率特征图的使用使Re-ID特征能够更好地与对象中心对齐。然后,文章添加了一个并行分支,用于估计用于预测对象身份的逐像素Re-ID特征。文章方法通过学习低维Re-ID特征,减少了计算时间同时提高了特征匹配的鲁棒性。文章还为骨干网络配备了“深层聚合”运算符,以融合来自多个层的特征,处理不同规模的对象。
Backbone网络
文章采用ResNet-34作为backbone,同时为了适应不同大小的目标,将DLA的一种变体DLA-34应用于骨干网络。这里输入图像大小为Himage×WimageH_{image}\times W_{image}Himage×Wimage

本文围绕多目标跟踪(MOT)展开,分析了two - step MOT和one - shot MOT两类方法的问题。提出一种anchor - free方法,采用ResNet - 34和DLA - 34作为骨干网络,设置目标检测和ID嵌入分支及相应损失函数。通过消融实验和与现有技术对比,该方法在多个数据集上表现更优。
最低0.47元/天 解锁文章
1794

被折叠的 条评论
为什么被折叠?



