A Simple Baseline for Multi-Object Tracking

最新推荐文章于 2024-03-13 22:43:59 发布

原创

最新推荐文章于 2024-03-13 22:43:59 发布 · 480 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#计算机视觉 #人工智能

本文围绕多目标跟踪（MOT）展开，分析了two - step MOT和one - shot MOT两类方法的问题。提出一种anchor - free方法，采用ResNet - 34和DLA - 34作为骨干网络，设置目标检测和ID嵌入分支及相应损失函数。通过消融实验和与现有技术对比，该方法在多个数据集上表现更优。

A Simple Baseline for Multi-Object Tracking

论文信息

Paper：[CVPR2020] A Simple Baseline for Multi-Object Tracking

Link : https://arxiv.org/abs/2004.01888

Code : https://github.com/ifzhang/FairMOT/

背景

多目标跟踪（MOT）是计算机视觉领域的一个重要问题。其目的是估计视频中多个感兴趣目标的轨迹。目前多目标追踪任务的解决方法通常分为两类：

two-step MOT: 首先用检测模型确定图像中感兴趣的对象的边界框，然后用关联模型为每个边界框提取重识别（Re-ID）特征，并根据在特征上定义的某些度量将其与一个现有跟踪结果联系起来。但是，这两个网络不共享特征，因此无法以视频帧速率执行推断。

one-shot MOT: 同时进行目标检测和Re-ID特征提取，通过共享大部分计算来减少推理时间。但是准确性显着下降，而且存在目标ID关联不正确的问题。

关键性因素分析

1、基于anchor的方法不适用于Re-ID任务

首先，对应于不同图像块的多个anchor可能负责估计同一目标的id，这会导致严重的歧义。此外，通常会将特征图进行下采样缩小为原来的 $1 / 8$ 以平衡精度和速度，这对于Re-ID太过粗糙，因为目标中心可能与在粗糙锚点位置提取的特征不一致。

文章通过将MOT问题视为高分辨率特征图上的像素级关键点（目标中心）估计和id分类问题来解决该问题。

2、多层特征聚合

对于MOT特别重要，因为Re-ID特征需要利用低级和高级特征来适应大型和小型的目标。研究者在实验中观察到，由于提高了处理尺度变化的能力，可以有效减少one-shot方法的id转换数量。

3、Re-ID特征维度

以前的Re-ID方法通常学习高维特征，并在其基准测试中取得了可喜的结果。但是，文章发现低维特征实际上更适合MOT，因为MOT任务的训练图像比Re-ID少，学习低维特征有助于减少过拟合小数据的风险，并提高跟踪的鲁棒性。

方法

文章采用anchor-free对象检测方法来估计高分辨率特征图上的目标中心。消除锚点减轻了歧义性问题，并且高分辨率特征图的使用使Re-ID特征能够更好地与对象中心对齐。然后，文章添加了一个并行分支，用于估计用于预测对象身份的逐像素Re-ID特征。文章方法通过学习低维Re-ID特征，减少了计算时间同时提高了特征匹配的鲁棒性。文章还为骨干网络配备了“深层聚合”运算符，以融合来自多个层的特征，处理不同规模的对象。