【多目标跟踪论文阅读笔记——JDE(Towards Real-Time Multi-Object Tracking)】

最新推荐文章于 2024-11-15 19:24:30 发布

书玮嘎

最新推荐文章于 2024-11-15 19:24:30 发布

阅读量1.6w

点赞数 19

文章标签：目标跟踪计算机视觉深度学习

本文链接：https://blog.youkuaiyun.com/selami/article/details/121930344

版权

这篇博客介绍了清华大学的JDE模型，这是一种将目标检测与外观特征学习融合的实时多目标跟踪方法。JDE通过单网络同时处理检测和特征提取，显著提高了MOT算法的运行速度，且在精度上与分离式方法相当。论文还探讨了自动损失平衡策略和在线关联算法。实验结果显示，JDE在速度上有显著优势，但在密集行人场景下的精度仍有待提高。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

[阅读心得] 多目标跟踪经典论文——JDE

写在前面

【论文】https://arxiv.org/pdf/1909.12605.pdf
【代码】https://github.com/Zhongdao/Towards-Realtime-MOT

写在前面

Towards Real-Time Multi-Object Tracking是2019年清华大学发表的多目标跟踪论文，其创新性地将目标检测环节和外观特征信息提取环节两部分融合设计为一个网络，从而极大地提升了多目标跟踪算法的推理速度，达到了接近实时地帧数(near real-time)，也为后序MOT的发展（如FairMOT）提供参考。但是笔者认为可能仍然没有完全解决Detection和REID两任务之间的矛盾。

1. 摘要

目前的多目标跟踪(MOT)算法主要遵从“检测后跟踪”的范式。顾名思义，其包含两个阶段：
1）检测模型获得目标的位置信息。
2）外观特征向量提取模型获得向量并用于数据关联。
分别执行这两个阶段会导致严重的效率问题，整个运行时间基本等于两阶段分别执行时间之和。而目前提升MOT实时性的工作主要集中于数据关联阶段，因为现在所说的“real-time MOT”通常指的是“real-time association step”，而并非真实的整个MOT算法的实时性

该论文提出了一种将“目标检测”与“特征向量提取”任务依赖一个共享模型学习的MOT网络设计方式：
1）将特征向量(embedding)提取网络放入单阶段目标检测模型中，从而能够通过一个网络输出这两个任务所需的结果。
2）提出了一种新的，简单且快速的数据关联方法，适用于上述联合网络。

最终经过实验验证，提出的MOT算法速度大幅提升、精度和分离式(SDE)的MOT算法中的SOTA基本持平。

2. Introduction

如今，多目标跟踪算法(MOT)范式主要有三种：

分离式：SDE模式，先用Detection网络获得BBox，再将bbox输入REID网络提取特征
两阶段式：two-stage模式，先用RPN网络找到目标对应特征图，再将特征图输入REID网络提取特征
上述两种方法本质上都是“两阶段”，只不过主要区别在于输入进REID网络的是图像(re-sampled pixels)还是特征图(re-sampled features)
联合式：JDE模型，本文新提出，将检测任务和REID任务融合到一个网络中去，即Joint learns the Detectors and Embedding model。

三种范式的结构图如下：
在这里插入图片描述

3. Joint Learning of Detection and Embedding(JDE)

3.1 Problem Settings

希望建立一个Joint learning模型，满足如下要求：

精准地检测出目标位置
提取出的特征向量满足：连续帧之间，同ID的的目标相似度高、不同ID的目标相似度低。其中，相似度可以用欧氏距离或余弦距离来衡量。

Technically, if the two objectives are both satisfied, even a simple association strategy, e.g., the Hungarian algorithm, would produce good tracking results.

最后，如论文作者所说，如果设计的JDE网络能够满足上述两个要求，那么不需要设计复杂的association规则就能够较好地实现跟踪。

3.2 Architecture Overview

特征提取网络采用Darknet53，后面接特征金字塔结构FPN，输出结果为分别对原图下采样1/8. 1/16. 1/32倍。输出维度为 $(6 A + D) * H * W$ ，其中， $A$ 表示预设的anchor数， $D$ 表示外观特征向量的维数。其output主要由三部分构成：

1 ) the box classification results of size $2 A * H * W$
2 ) the box regression coefficients of size $4 A * H * W$
3 ) the dense embedding map of size $D * H * W$