AutoAlignV2
Deformable Feature Aggregation for Dynamic Multi-Modal 3D Object Detection
论文网址:AutoAlignV2
论文代码:AutoAlignV2
简读论文
这篇论文提出了一种名为AutoAlignV2的动态多模态3D目标检测框架,旨在高效融合激光雷达点云和RGB图像以提高3D目标检测的精度。主要贡献包括:
-
提出了一种Cross-Domain DeformCAFA模块,用于在不同模态之间实现高效的特征聚合。该模块采用可形变注意力机制,通过学习采样点对齐RGB特征,大幅降低了计算复杂度,同时保留了多层次图像特征的层次表示。
-
设计了一种简单有效的Depth-Aware GT-AUG数据增强策略,利用3D物体注释的深度信息合成图像,简化了2D-3D数据同步的过程。
-
提出了一种图像级别的dropout训练策略,使模型能够动态地在有或无图像的情况下进行推理,提高了模型的通用性和适用性。
-
在nuScenes数据集上进行了大量实验,结果表明AutoAlignV2相比现有方法能够显著提升3D目标检测性能,在测试集上取得了72.4的最新state-of-the-art NDS分数。
-
通过消融实验,分析了每个模块对性能的贡献,并探讨了不同设置下的速度与准确性权衡。
总的来说,该工作提出了一种高效、通用且精度卓越的多模态3D目标检测解决方案,对于促进自动驾驶感知技术具有重要意义。
摘要
点云和 RGB 图像是自动驾驶中两种常见的感知源。前者可以提供物体的准确定位,后者语义信息更密集、更丰富。最近,AutoAlign 提出了一种可学习的范例,将这两种模式结合起来进行 3D 目标检测。然而,它受限于全局注意力带来的高计算成本。为了解决这个问题,在这项工作中提出了Cross-Domain Deform CAFA模块。它关注跨模态关系建模的稀疏可学习采样点,增强了对校准误差的容忍度,并大大加快了不同模态的特征聚合速度。为了克服多模态设置下复杂的 GT-AUG,本文在给定深度信息的图像块凸组合上设计了一种简单而有效的跨模态增强策略。此外,通过执行一种新颖的图像级 dropout 训练方案,模型能够以动态方式进行推断。为此,本文提出了 AutoAlignV2,这是一个更快、更强的多模态 3D 检测框架,建立在 AutoAlign 之上。 nuScenes 基准上的大量实验证明了 AutoAlignV2 的有效性和效率。值得注意的是,本文的最佳模型在 nuScenes 测试排行榜上达到了 72.4 NDS,在所有已发布的多模态 3D 物体检测器中取得了最先进的结果。
引言
3D 目标检测是自动驾驶中的一项基本计算机视觉任务。现代 3D 目标检测器 在 KITTI 、Waymo 和 nuScenes 数据集等竞争基准上表现出了良好的性能。尽管检测精度进步很快,但进一步改进的空间仍然很大。最近,将 RGB 图像与 LiDAR 点云相结合进行精确检测的热潮引起了许多关注 。与有利于空间定位的点云不同,影像数据在提供语义和纹理信息方面更优越,即更适合分类。因此,相信这两种方式是互补的,可以进一步提高检测精度。
然而,如何有效地结合这些异构表示来进