DeepFusionMOT 论文笔记

最新推荐文章于 2025-12-23 21:57:38 发布

原创最新推荐文章于 2025-12-23 21:57:38 发布 · 925 阅读

CC 4.0 BY-SA版权

文章标签：

论文链接：[2202.12100] DeepFusionMOT: A 3D Multi-Object Tracking Framework Based on Camera-LiDAR Fusion with Deep Association

一. 简介

一般来说，相机可以检测远程目标，并且能够准确获取目标的外观特征，而激光雷达则很难做到这一点；激光雷达可以获取目标的准确的空间信息，深度信息在 3D MOT 中尤为重要，但基于激光雷达的方法只有在物体靠近时才能开始跟踪。

本文提出一种鲁棒、快速的基于相机-LIDAR 融合的 MOT 方法，实现了精度和速度的良好折中。本文设计了一种有效的深度关联机制，并将其嵌入所提出的 MOT 算法中。当目标距离较远且仅被相机检测到时，在 2D 域对目标进行跟踪，并利用目标出现在 LIDAR 场景中获取的 3D 信息对 2D 轨迹进行更新，实现 2D 和 3D 轨迹的平滑融合。

二. 问题陈述

基于相机的 MOT 方法缺乏 3D 跟踪所需的深度信息；基于 LIDAR 的 MOT 方法由于缺乏像素信息无法准确跟踪远距离目标；现有的基于相机和 LIDAR 融合的跟踪方法设计了复杂度特征提取器，需要在 GPU 上运行，无法轻松实现实时应用。
大多数方法在相机- LiDAR 融合过程中未能充分利用视觉数据与点云数据；通常，基于激光雷达的探测器检测到的物体被投影到图像上以进行信息提取。因此，对于图像中激光雷达传感器未检测到的物体，相应的像素信息会丢失。

三. 系统架构

输入：基于相机的 2D 检测器和基于 LIDAR 的 3D 检测器分别用于获取图像域和 LIDAR 与目标的位置与运动信息，将 LIDAR 中的 3D 边界框投影至图像域变为 2D 边界框，计算与图像 2D 边界框的 IoU，基于此进行两者信息匹配融合；
数据关联：1）LIDAR 和相机同时检测到的目标优先与现有 3D 轨迹关联；2）第一级关联不匹配的3D轨迹与 LIDAR 检测目标进行关联；3）相机检测目标与 2D 轨迹进行关联；4）3D 轨迹投影到图像域并与 2D 轨迹融合；

四. 所提方法

4.1. 相机-LIDAR 融合

2D 检测 $D_{2\text{d}}=(x_{\mathrm{c}},y_{\mathrm{c}},w,h)$ ，3D 检测 $D_{3\text{d}}=(x_{\mathrm{c}},y_{\mathrm{c}},w,h,l,\theta)$ ， $D_{3\text{d}}$ 基于坐标变换投影至图像域获得 $D_{2\text{d}}^{3\text{d}}$ 。将 $D_{2\text{d}}$ 和 $D_{2\text{d}}^{3\text{d}}$ 基于 IoU 进行匹配得到： $D_{2\text{d}}^{only}$ 、 $D_{3\text{d}}^{only}$ 、 $D_{2\text{d}-3\text{d}}^{fused}$ 。

4.2. 深度关联

第一级关联 现有 3D 轨迹与 $D_{2\text{d}-3\text{d}}^{fused}$ 关联，使用损失函数如下：

为解决检测与轨迹未重叠时 IoU=0 的问题，引入欧氏距离实现更稳健的数据关联。第一级关联得到结果为： $T_{\mathrm{m1}}^{3\mathrm{d}}$ 、 $T_{\mathrm{u1}}^{3\mathrm{d}}$ 和 $D_{\mathrm{u1}}^{3\mathrm{d}}$ ，将 $T_{\mathrm{m1}}^{3\mathrm{d}}$ 进行更新， $D_{\mathrm{u1}}^{3\mathrm{d}}$ 初始化为新的确认态轨迹，将 $T_{\mathrm{u1}}^{3\mathrm{d}}$ 移至下一级关联。

第二级关联 第一级未关联轨迹 $T_{\mathrm{u1}}^{3\mathrm{d}}$ 与 $D_{3\text{d}}^{only}$ 进行关联。采用与第一级关联相同的损失函数，未匹配的检测 $D_{u2}^{only\_3\text{d}}$ 被初始化为未确认态轨迹。未匹配的轨迹 $T_{\mathrm{u2}}^{3\mathrm{d}}$ 设定为暂定态轨迹，只有连续 3 帧匹配成功才能转化为确认态。
第三级关联 现有 2D 轨迹和 $D_{2\text{d}}^{only}$ 进行关联。
第四级关联 未匹配的 3D 轨迹（包括二级关联中的 $T_{\mathrm{u2}}^{3\mathrm{d}}$ 以及暂定态轨迹）和第三级中的 2D 轨迹进行关联。将这些 3D 轨迹投影到图像域，得到相应的 2D 边界框，基于 IoU 进行匹配。一旦一个 2D 轨迹成功地与一个 3D 轨迹相关联，然后将这两者融合形成一个新的 3D 轨迹。（将 2D 轨迹的 ID、出现帧数、轨迹状态赋予 3D 轨迹，并删除 2D 轨迹）

4.3. 轨迹管理

本文采用了[ 2 ]中的轨迹管理方法，但不同的是增加了一个新的轨迹状态- -重现。具体来说，当一条确认的轨迹被遮挡，进而无法与若干帧的任何检测相关联时，它就被视为一个再现的轨迹。如果该轨迹在后续连续帧(大于某一阈值)中不能关联，则认为该轨迹在传感器FOV中消失，该轨迹变为死轨迹。因此，在本文中，一条轨迹可能有四种状态，包括死亡、暂定、确认和重现。

五. 实验

5.1. 实验设置

数据集：KITTI、nuScences；
基线方法：BeyondPixels [7], mmMOT [1], FANTrack [28], AB3DMOT [23], JRMOT [3], MOTSFusion [31], GNN3DMOT [5], JMODT [26], Quasi-Dense [32], EagerMOT [8], LGM [12], DEFT [33] 和 QD-3DT [34]；
目标检测器：

1）KITTI：RRC —— 2D 检测；PointRCNN —— 3D 检测。此类检测用于 BeyondPixels [7], MOTSFusion [31], EagerMOT [8], AB3DMOT [23] 和 GNN3DMOT [5]；

2）nuScenens：Cascade RRC —— 2D 检测；CenterPoint —— 3D 检测。
评价指标：2D MOT 指标：CLEAR；HOTA；3D MOT 指标：AMOTA、sAMOTA；

5.2. 实验结果

定量评估
定性评估
消融实验

1）外观信息的影响：使用 DeepSORT 中的特征提取器提取外观信息，使用 VeRi 数据集[ 41 ] 进行训练。

2）目标检测器的影响： 3D 检测器采用 PointRCNN 和 Point-GNN 进行比较，2D 检测器采用 RRC 和 Yolov3 进行比较。

六. 总结与展望

改进之处：

LiDAR和视觉外观特征以及运动特征将被纳入到损失函数中，以增强关联鲁棒性；
受[ 44 ]的启发，将GPS / IMU数据纳入其中，以补偿自车运动对目标的预测误差，并加入适当的检测滤波和细化，以提高检测的置信度；
基于[ 44 ]中提出的概念，研究和设计更有效的轨迹管理机制。