集智书童 | 遮挡不再成难题！GRASPTrack横空出世！Voxel化3D点云让遮挡追踪准确率飙升12%

原创于 2025-12-16 18:22:18 发布 · 725 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#3d #人工智能 #计算机视觉 #目标检测 #transformer

深度学习拓展阅读专栏收录该内容

1025 篇文章

订阅专栏

本文来源公众号“集智书童”，仅用于学术分享，侵权删，干货满满。

原文链接：https://mp.weixin.qq.com/s/BCxkMZO2JStePrYwIEo2dA

精简阅读版本

本文主要解决了什么问题

1. 单目视频中的多目标跟踪（MOT）受到遮挡和深度模糊问题的根本性挑战，当不同深度的多个物体在2D图像平面中重叠时，会导致严重的身份切换问题。
2. 传统的检测后跟踪（TBD）方法由于缺乏几何感知能力，难以解决遮挡和深度模糊问题，这些方法通常仅依赖于2D边界框检测和IoU等指标进行逐帧关联。
3. 精确建模运动的问题，尤其是沿相机光轴运动的物体可能经历显著的3D运动但2D位置变化极小，导致速度估计错误和关联失败。
4. 现有的从2D特征推理伪深度或使用单目深度估计模型的方法存在局限性，要么依赖较强的场景假设产生不精确的深度估计，要么从整个2D边界框中提取3D特征引入背景噪声。

本文的核心创新是什么

1. 提出了GRASPTrack，一个新颖的深度感知多目标跟踪框架，将几何推理集成到跟踪流程中。利用单目深度估计和分割Mask从2D检测中重建高保真度的3D点云，并将这些点云Voxel化以实现基于Voxel的3D IoU进行目标关联。
2. 提出了深度感知自适应噪声补偿（DANC），一种动态卡尔曼滤波过程噪声调整机制，根据遮挡的严重程度动态调整卡尔曼滤波器中的过程噪声协方差，确保在不确定性下进行更保守和可靠的状态更新。
3. 提出了深度增强的以观测为中心的动量（DOCM），将运动方向一致性建模从2D空间扩展到3D空间，通过使用完整的3D状态向量计算运动方向一致性，提供更鲁棒的运动线索。
4. 将卡尔曼滤波器状态向量扩展以包含物体深度及其速度，实现3D感知运动建模，使卡尔曼噪声能够进行深度感知调整。

结果相较于以前的方法有哪些提升

1. 在MOT17和MOT20数据集上，GRASPTrack表现出优异的性能，分别达到了66.1和64.5的HOTA得分，表明在复杂遮挡场景中具有良好的效率和鲁棒性。
2. 在DanceTrack数据集上，GRASPTrack获得了65.3的HOTA分数，证明该方法能够有效处理具有多样运动和遮挡的挑战性场景。
3. 消融研究表明，每个提出的组件（Voxel-Based 3D IoU、DANC和DOCM）都为基线性能提供了显著改进，特别是DOCM的集成提供了最显著的性能提升，有效捕捉了复杂的运动模式。
4. Mask引导的3D点云生成策略相比完整边界框方法，HOTA得分提高了1.1%，有效消除了背景噪声和遮挡干扰，生成了更干净的3D点云，实现了更准确的基于Voxel的3D IoU计算。

局限性总结

1. 计算效率问题：当Voxel网格大小参数设置过小时，会导致计算开销显著增加，FPS降至9.3，影响实时性。
2. 深度估计依赖性：该方法依赖于单目深度估计模型生成的深度图，如果深度估计不准确，可能会影响整个跟踪性能。
3. 参数敏感性：遮挡敏感度因子的选择对跟踪性能有显著影响，需要根据不同场景进行调整，参数过小或过大都会导致性能下降。
4. 相机内参依赖：由于评估的视频序列缺乏相机内参，需要通过交互式对齐投影的地面网格与每张图像来估计它们，可能引入额外的误差。

深入阅读版本

导读

单目视频中的多目标跟踪（MOT）受到遮挡和深度模糊问题的根本性挑战，而传统的检测后跟踪（TBD）方法由于缺乏几何感知能力，难以解决这些问题。为应对这些局限性，作者提出了GRASPTrack，这是一个集成了单目深度估计和实例分割的新型深度感知MOT框架，将其整合到标准的TBD流程中，从2D检测结果生成高保真度的3D点云，从而实现显式的3D几何推理。这些3D点云随后被 Voxel 化，以实现精确且鲁棒的基于 Voxel 的3DIoU（IoU）进行空间关联。为进一步增强跟踪鲁棒性，GRASPTrack引入了深度感知自适应噪声补偿，根据遮挡严重程度动态调整卡尔曼滤波过程噪声，以实现更可靠的状态估计。此外，作者提出了深度增强的以观测为中心的动量，将运动方向一致性从图像平面扩展到3D空间，以改善基于运动的关联线索，特别是对于具有复杂轨迹的物体。在MOT17、MOT20和DanceTrack基准数据集上的大量实验表明，GRASPTrack取得了具有竞争力的性能，显著提高了在频繁遮挡和复杂运动模式的复杂场景中的跟踪鲁棒性。

1. 引言

多目标跟踪（MOT）是计算机视觉领域的一项关键任务，具有广泛的应用，例如自动驾驶[1]、机器人导航[2]和体育分析[3]。大多数MOT方法通常遵循跟踪检测（TBD）范式，其中目标在每个帧中独立检测，并根据运动和外观线索跨帧关联。这些MOT方法通常依赖于2D边界框检测，并通过IoU（IoU）等指标进行逐帧关联。尽管这些方法效率较高，但它们本质上缺乏几何感知能力，使其容易受到目标交互、深度模糊和遮挡的影响。

当前多目标跟踪方法在实际场景中面临诸多挑战。一个关键问题是遮挡。当不同深度的多个物体在2D图像平面中重叠时，即使是短期的部分遮挡也可能导致严重的重叠，从而引发身份切换问题，而基于IoU的匹配方法难以有效解决。另一个重要挑战是精确建模运动。例如，沿相机光轴运动的物体可能经历显著的3D运动，但2D位置变化极小，这会导致速度估计错误和关联失败。为缓解这些问题，已有若干工作[4], [5]尝试从2D特征中推理伪深度。然而，这些方法依赖于较强的场景假设，通常会产生不精确的深度估计。此外，其他方法[6], [7]使用单目深度估计模型获取深度图，但通常从整个2D边界框中提取3D特征。这一过程引入了来自背景甚至遮挡物体的显著噪声，降低了物体3D表示的质量。

为解决这些局限性，本研究提出了一种深度感知的多目标跟踪（MOT）框架，该框架明确将几何推理融入跟踪流程，命名为GRASPTrack。GRASPTrack利用单目深度估计和分割的先进模型，从单张图像中丰富场景理解。具体而言，作者使用分割模型为每个目标生成精确的实例 Mask 。该 Mask 指导从单目深度估计模型生成的密集深度图中创建干净、高保真度的3D点云。为增强空间匹配，这些点云被转换为 Voxel 表示，从而实现基于 Voxel 的3DIoU（IoU），以实现鲁棒的关联并更准确地反映其真实空间范围。

此外，作者增强了存在遮挡情况下的运动建模。传统的卡尔曼滤波器[8]依赖于固定的过程噪声假设，无法适应遮挡引入的不确定性增加。作者提出了深度感知自适应噪声补偿（DANC）方法，根据遮挡的严重程度动态调整卡尔曼滤波器中的过程噪声协方差，确保在不确定性下进行更保守和可靠的状态更新。此外，OC-SORT[9]中引入的以观测为中心的动量（OCM）利用运动方向一致性来提高关联鲁棒性。作者引入了深度增强的以观测为中心的动量（DOCM），将运动方向一致性建模从2D空间扩展到3D空间。通过使用完整的3D状态向量计算运动方向一致性，GRASPTrack提供了更鲁棒的运动线索，从而实现更可靠的数据关联。作者在多个具有挑战性的数据集上评估了GRASPTrack，例如MOT17[10]、MOT20[11]和DanceTrack[12]。实验结果表明，GRASPTrack在检测跟踪方法中取得了极具竞争力的性能。

本研究的主要贡献如下：

• 作者提出了GRASPTrack，一个新颖的深度感知多目标跟踪（MOT）框架，该框架将几何推理集成到跟踪流程中，显著增强了遮挡情况下的鲁棒性。作者利用单目深度估计和分割 Mask 从2D检测中重建高保真度的3D点云。这些点云被 Voxel 化以实现基于 Voxel 的3DIoU（IoU）进行目标关联，而 Mask 引导的细化有效抑制了背景和遮挡噪声。
• 作者提出了DANC，一种动态卡尔曼滤波过程噪声调整机制，该机制考虑了遮挡的严重程度。此外，作者通过使用深度信息扩展了卡尔曼滤波状态向量，以实现在3D空间中进行精确的空间状态估计。
• 作者提出DOCM来扩展3D空间中的运动方向一致性，以在复杂场景下改进基于运动的关联。

在具有挑战性的基准数据集上进行了广泛的实验结果和比较。

2. 背景和相关工作

A. 基于检测的跟踪

当前许多多目标跟踪方法遵循TBD范式[9][13]-[15]。这些方法使用检测器在每一帧中检测目标，并在不同帧之间进行关联。早期的TBD方法，如SORT[13]，依赖于卡尔曼滤波器进行运动预测，并使用预测框与检测框之间的IoU进行关联。DeepSORT[16]在代价矩阵中引入了基于ReID的外观相似性，以增强鲁棒性并处理IoU失效的长期遮挡。ByteTrack[14]引入了一种简单有效的启发式方法，将低置信度检测单独关联，以在遮挡期间恢复目标。OCsORT[9]通过改进卡尔曼滤波器中的线性运动假设，增强了处理遮挡的鲁棒性。Deep OC-sORT[17]集成了外观特征和相机运动补偿。UCMCTrack[18]提出了一种通过用地面平面上的映射马氏距离替换标准IoU度量来处理相机运动的目标跟踪方法。TBD方法表明，强检测器与简单关联策略的结合可以产生具有竞争力的跟踪性能。因此，在本研究中，作者选择遵循TBD范式。

B. 运动目标跟踪中的深度信息

将深度信息作为空间上下文的一种形式是增强多目标跟踪鲁棒性的关键策略，尤其在拥挤场景中。在3D多目标跟踪（3D MOT）领域，AB3DMOT [19] 和 CenterPoint [20] 等跟踪器利用LiDAR等显式3D传感器在真实3D空间中跟踪目标。然而，这些方法依赖于专业且昂贵的硬件，限制了其广泛应用。这促使研究者开发能够从更易获取的单张2D图像中推理3D信息的方法，该图像通过透视投影隐式包含深度线索。单摄像头方法主要遵循两个方向。第一个方向使用伪深度启发式方法从目标在2D帧中的位置推理相对深度顺序。SparseTrack [4] 利用伪深度沿深度轴分离目标，并将检测到的目标划分为多个不同深度的Sparse子集。CAMOT [5] 将伪深度状态直接整合到其卡尔曼滤波器中。第二个方向是使用单目深度估计模型生成深度图。QuoVadis [6] 使用这些图创建鸟瞰视图（BEV）表示进行预测。然而，这些先前研究存在局限性，因为它们要么依赖粗略的几何启发式方法，要么仅将深度信息作为辅助线索来提高跟踪性能。在本研究中，作者通过整合更精确的深度信息来增强3D几何推理的更鲁棒和全面的集成，从而提高跟踪器在复杂和遮挡场景中的鲁棒性。

3. 方法

GRASPTrack通过一个由三个主要组件组成的深度感知框架增强了TBD范式。作者首先引入一个深度感知 Voxel 化和3D IoU计算模块，该模块将分割的深度图转换为 Voxel 网格以进行几何匹配。随后是一个将深度信息融入状态预测的DANC模块。最后，一个DOCM模块对3D空间中的运动一致性进行建模。所有组件均围绕深度进行协同设计，形成一个完整的深度感知多目标跟踪框架。

A. 深度感知 Voxel 化与3D IoU

B. 深度感知自适应噪声补偿

当前MOT方法[9], [13]-[15]中的传统KF使用固定的过程噪声参数，这限制了跟踪算法在遮挡和几何模糊条件下的鲁棒性。被遮挡的物体可能表现出不可预测的运动模式，而简单的恒定速度模型无法捕捉这些模式。为了在这样的挑战性条件下提升跟踪性能，作者提出了DANC，它能够动态调整过程噪声参数。

C. 深度增强的以观察为中心的动量

4. 实验

A. 数据集和评估指标

1. 数据集：作者在三个MOT基准数据集上评估了作者提出的框架：MOT17 [10]、MOT20 [11] 和 DanceTrack [12]。MOT17 和 MOT20 数据集是MOT领域常用的标准基准，包含各种具有挑战性的真实场景，如密集人群、频繁遮挡和多样化的摄像机角度。MOT17 提供从不同视角捕获的带标注的行人跟踪数据，而 MOT20 则呈现更密集的场景，用于评估在极端遮挡和人群条件下跟踪方法的性能。相比之下，DanceTrack 专门针对具有统一外观和复杂、多样化舞美表演场景中具有挑战性的跟踪场景。利用这些多样化的基准数据集，可以对GRASPTrack在各种和真实的跟踪挑战进行全面评估。
2. 评估：作者采用MOT中常用的标准评估指标，包括MOTA [32]、IDF1 [33]、HOTA [34]和AssA [34]。MOTA评估整体跟踪精度，结合检测精度与身份一致性，而IDF1专门衡量在跟踪过程中保持目标身份的准确性。AssA用于评估关联性能。HOTA提供均衡的评估，同时捕捉关联精度和检测性能。
3. 实现细节：作者提出的框架基于OC-SORT基准，集成了用于深度估计和分割的附加模块。具体而言，作者使用预训练的ViT-B Depth Anything v2模型[21]进行零样本单目深度估计，并使用ViT-S EfficientTAM[22]进行精确实例分割。深度图通过Depth Anything v2预测，并线性缩放到区间[0, 255]。为了进行公平比较，作者使用ByteTrack[14]开发的公开可用的YOLOX[35]检测器权重。由于评估的视频序列缺乏相机内参，作者首先通过交互式对齐投影的地面网格与每张图像来估计它们，遵循UCMCTrack[18]中介绍的方法。基于 Voxel 的3DIoU计算中， Voxel 大小参数设置为0.4，以平衡计算效率和精度。对于作者的深度感知自适应噪声补偿（DANC），控制噪声缩放放大强度的遮挡敏感度因子设置为3。用于基于3DIoU确定成对遮挡的空间重叠阈值设置为0.6。在关联阶段，作者根据ByteTrack分别对高分和低分检测结果执行独立的匹配过程，阈值分别设置为0.6和0.1。作者还采用了与DiffMOT[30]中相同的设置遵循的ReID模型。所有实验均使用GeForce NVIDIA A100 GPU进行。

B. 与最先进方法的比较

1. MOT挑战：在表1中，作者将GRASPTrack的性能与最先进的TBD方法在MOT17和MOT20数据集上的表现进行了比较。为确保公平性，所有方法均使用相同的检测结果和标准化的评估协议进行评估。从比较结果来看，GRASPTrack在MOT17和MOT20上均表现出优异的性能，分别达到了66.1和64.5的HOTA得分。这些结果表明，GRASPTrack在复杂遮挡场景中具有良好的效率和鲁棒性。
2. DanceTrack.: 为了展示GRASPTrack在复杂和遮挡场景中的性能，作者在 DanceTrack 数据集上测试了GRASPTrack，如表2 所示。作者的结果表明与其他方法相比具有优越的性能，并获得了 65.3 的 HOTA 分数。结果表明GRASPTrack能够有效处理具有多样运动和遮挡的挑战性场景。

C. 消融研究

为验证作者提出的深度感知多目标跟踪框架的有效性，作者在 DanceTrack 的验证集上进行了全面的消融实验。消融实验旨在分析四个关键方面：(1) 每个提出组件的贡献，(2) Voxel Grid Size 参数的影响，(3) 遮挡敏感度因子的影响，以及 (4) 3D 点云生成策略的影响。

1. 组件消融：在表3中，作者通过逐步将GRASPTrack的每个提出组件集成到OC-sORT Baseline 中，系统地评估了每个组件的贡献。三个关键创新是VoxelBased 3D IoU、DANC和DOCM。作者的实验表明，每个组件都为 Baseline 性能提供了显著改进。Voxel-Based 3D IoU计算通过用体积相似性度量替代传统2D IoU，增强了目标关联，从而在存在遮挡的复杂场景中实现鲁棒跟踪。DANC通过根据检测到的遮挡事件动态调整过程噪声参数，提高了跟踪的鲁棒性，这在遮挡场景中尤其有益。DOCM的集成通过将运动一致性建模从2D空间扩展到3D空间，提供了最显著的性能提升，有效捕捉了复杂的运动模式。这三个组件的综合效果形成了一个全面的深度感知MOT框架，在DanceTrack数据集上显著优于 Baseline OC-SORT方法。
2. Voxel 网格大小：在表4中，作者进行了广泛的实验以确定作者的基于 Voxel 的3D IoU的最优 Voxel 网格大小参数，系统地将其值从0.2变化到1.0，以0.2为步长。实验结果表明，在DanceTrack数据集上实现了最高的跟踪性能，在HOTA（62.8）、AssA（49.2）和IDF1（64.2）指标之间取得了最佳平衡。当过小（0.2）时， Voxel 网格变得过于精细，导致Sparse的占用模式，对深度估计噪声敏感，并导致计算开销增加，如最低的FPS（9.3）所示。相反，当过大（0.8-1.0）时， Voxel 网格变得过于粗糙，丢失了用于精确目标区分的关键空间细节，尽管FPS性能有所提高（14.8至15.1 FPS）。最优值0.4不仅提供了足够的空间分辨率以捕获有意义的体积重叠，并保持对深度估计不确定性的鲁棒性，还实现了合理的计算效率（13.1 FPS）。

5. 结论

本文提出GRASPTrack，一种基于深度感知的多目标跟踪框架，该框架结合单目深度估计和实例分割技术，为单个目标重建高保真度的3D点云，从而实现超越2D平面的显式3D几何推理。通过将 Mask 引导的点云 Voxel 化，作者计算基于 Voxel 的3D IoU，以在严重遮挡情况下实现鲁棒的目标关联。此外，作者引入了DANC，该技术根据遮挡严重程度自适应地缩放卡尔曼滤波过程噪声，以及DOCM，该技术将深度融入运动建模以增强轨迹连续性。大量实验表明，与当前最先进方法相比，GRASPTrack具有有效性和鲁棒性。

3. 遮挡敏感度因子：作者通过系统地调整深度感知卡尔曼滤波机制中的遮挡敏感度因子的值（从1到5），研究了其对跟踪性能的影响。如表所示，作者的结果表明在 DanceTrack 数据集上提供了鲁棒跟踪性能的最佳平衡。该参数控制遮挡事件中过程噪声放大的强度。当过小（1-2）时，噪声补偿机制不足以应对遮挡事件中不确定性的增加，导致运动预测过度自信且无法适应不可预测的运动模式。相反，当过大（4-5）时，噪声补偿过度，导致卡尔曼滤波器过于宽松，可能将错误的检测与现有轨迹关联，引发身份切换。最优值3有效地解决了遮挡引入的运动不确定性，同时保持了足够的判别能力以实现精确的数据关联，尤其适用于群体舞蹈场景中典型的动态和交互式运动模式。
4. 3D点云生成策略：在表6中，作者通过将其与替代方法进行比较，进行了实验以验证作者 Mask 引导的3D点云生成策略的有效性。作者比较了两种不同的策略：(1) 使用EfficientTAM进行 Mask 引导投影以获取物体的分割 Mask （GRASPTrack）和(2) 使用所有检测框内的像素进行完整边界框投影。作者在DanceTrack数据集上的实验结果表明，与完整边界框方法相比， Mask 引导方法取得了最佳性能，HOTA得分提高了。 Mask 引导策略有效消除了背景噪声和遮挡干扰，从而生成了更干净的3D点云，并实现了更准确的基于 Voxel 的3D IoU计算。相比之下，完整边界框方法受到背景污染的影响，特别是在物体经常重叠的拥挤场景中。此外，作者观察到更强的基础检测器显著增强了GRASPTrack的有效性。详细的实验结果和消融研究在附录中提供。