【自动驾驶】自动驾驶车辆中基于图像和点云融合的目标检测调查学习笔记

本文回顾了自动驾驶中基于图像和点云的目标检测方法，包括传统和深度学习方法。介绍了图像和点云融合的三种架构：早融合、深度融合和后期融合，并分析了其优缺点。最后探讨了未来研究面临的挑战和方向，如数据集可靠性、传感器融合精度等。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

自动驾驶车辆中基于图像和点云融合的目标检测调查

一、文章说明

1.摘要：

由于硬件限制，使用单个传感器很难实现准确可靠的环境感知。然而，多传感器融合技术提供了一个可以接受的解决方案。本文回顾了使用图像和点云进行目标检测的传统和现有文献。此外，对于基于融合的结构，本文根据图像和点云融合类型将目标检测方法分类为：早期融合、深度融合和后期融合。此外，还对这些类别进行了清晰的解释，包括优点和局限性。最后，评估了环境感知未来可能面临的机遇和挑战。

2.常见缩写：

ADAS 先进驾驶辅助系统。

AV 自动驾驶

Bbox 边界框.

CNN 卷积神经网络.

DL 深度学习

FCN 全卷积神经网络

FPN 特征金字塔网络

GNN 图神经网络

NHTSA 国家公路交通安全管理局。

R-CNN

RoIs 利益区域。

RPN 地区提案网。

STD 稀疏到密集

SVM 支持向量机。

YOLO

二、介绍

1.自动驾驶数据集：

the KITTI ：

“A. Geiger, P. Lenz, and R. Urtasun, “Are we ready for autonomous driving? The KITTI vision benchmark suite,” in Proc. IEEE Conf. Comput. Vis. Pattern Recognit., Jun. 2012, pp. 3354–3361.”

nuScenes ：

“H. Caesar et al., “nuScenes: A multimodal dataset for autonomous driving,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2020, pp. 11621–11631.”

ApolloScape ：

“X. Huang, P. Wang, X. Cheng, D. Zhou, Q. Geng, and R. Yang, “The apolloscape open dataset for autonomous driving and its application,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 42, no. 10, pp. 2702–2719, Oct. 2020.”

PandaSet ：

“F. Heidecker et al., “An application-driven conceptualization of corner cases for perception in highly automated driving,” 2021, arXiv:2103.03678.”

2.基于图像和基于点云的对象检测方法：

Faster R-CNN

Sparse R-CNN

Pointnet++

Voxelnet

基于图像和基于点云的对象检测在结合使用时表现更好。通过融合它们，可以实现视觉和立体的结合，并提高环境感知的鲁棒性。

本文涵盖了基于图像和基于点云的对象检测的发展，旨在为读者提供更清晰的理解。此外，对每种融合方法进行了更详细的分析，并得出了具体结果。

早期融合通过图像和点云信息之间的融合数据形式细分为三种更详细的方法。其中包括图像检测器驱动、图像语义驱动和关键点驱动方法。

根据点云与图像特征的融合方向，深度融合进一步细分为两类——双向引导融合和单向引导融合法。

3.本文大致内容：

（1）综述了基于图像和点云的目标检测的发展和性能，重点介绍了当代基于DL的目标检测方法。

（2）对基于图像和点云融合的目标检测进行了详细而系统的总结，包括每种融合方法的特征图示。此外，还描述了这三种融合结构的优缺点。

（3）深入探讨了未来AV中图像和点云目标检测研究的挑战和方向。

三、基于图像的物体检测

作为基于图像的检测的重要传感器，相机获得包含轮廓、纹理和颜色分布以及其他物体信息的光学图像。常见的相机可分为三类：单目相机、双目相机和RGB相机。

1.所有这些相机都有缺点：

（1）单目相机会丢失场景深度信息，极大地损害物体尺寸估计和物体定位精度，尤其是在AV中。

（2）双目相机存在标定复杂、深度范围和精度有限以及视差计算高等几个重大缺陷。

（3）RGB-D相机除了易受阳光照射外，还具有测量范围窄、噪声大、视野（FOV）小等特点。因此，很难在户外使用它们[23]。

2.目标检测的进展经历了两个历史时期：传统检测和基于深度学习的检测

2.1传统的基于图像的物体检测：

传统的基于图像的目标检测特征是通过手动设计的特征提取器获得的。它们通常包括三个步骤：

第一步包括选择感兴趣区域（RoIs），通常使用滑动窗口方法。

第二步包括通过手动特征提取器本地二进制模式（LBP）提取 Rois 的特征。

第三步也是最后一步包括通过机器学习算法（包括 SVM [30] 和 AdaBoost [31]）根据提取的特征检测对象。

经典算法：

（1）定向梯度直方图（HOG）：HOG [32]是用于计算机和图像处理中对象检测的局部特征描述符.由于它描述了边缘结构特征和物体结构信息，因此使用HOG检测器进行了许多研究来检测物体[33]，[34]。

（2）Haar-like:类似哈尔的特征[35]首先由Papageorgiou等人应用于面部表征。它们通常可分为四类：边缘特征、线性特征、中心特征和对角线特征，可以反映图像的灰度变化。

尺度不变特征变换（SIFT）：SIFT [36] 是用于提取局部特征的描述符，对旋转、缩放和亮度变化不变。它在仿射变换和噪声方面是稳定的，可以生成大量特征，特别是对于模糊对象。

传统目标检测基于检测到的对象，设计相应的特征提取器。

2.2基于DL的图像目标检测:

目前，基于深度学习的图像目标检测可分为两类——单级探测器和两级探测器。前者主要通过具有快速运行时间的整个网络进行检测。另一方面，后者主要考虑准确性;

1.单级探测器：为了最大限度地提高实时检测率，创建了以（YOLO）系列为代表的单级探测器[63]，[64]。所述探测器是两级探测器的进化版本，它使用单个网络来检测物体。对象类别和Bbox可以直接从特征图预测，广泛应用于实时检测。

2.两级探测器：两级探测器的想法最早出现在R-CNN [60]。两级探测器通常包括区域建议和RoI池[19]，保证了网络检测的准确性。

四、基于点云的物体检测

激光雷达是主要的点云检测传感器，并以点云的形式生成 3D 场景表示。这样，它可以获得物体距离、反射强度和运动属性。

激光雷达有两种类型：固态激光雷达和机械激光雷达。其中，后者是最流行的自动驾驶传感器之一，通过旋转镜头提供围绕车辆的360°水平FOV。

作为基于图像的目标检测方法，基于激光雷达的方法可以分为几类：传统的方法以及基于深度学习的物体检测。

1.传统的基于点云的物体检测：

点云检测采用许多手动特征算法来提取重要特征，然后通过一些机器学习算法进行目标检测。

1.1点云的特征通常分为三类：

（1）单点特征：内在点特征。激光雷达点通常包括 3D 坐标、法线、主曲率、特征值和回波强度。

（2）局部特征：构造为对局部表面信息进行编码。它们包含许多关键点、边、局部法线和空间结构。常用的局部特征提取器包括局部表面斑块 [78]、独特形状上下文 [79]、法线对齐径向特征 [80] 和旋转投影统计 [81]。方向直方图特征[85]、[86]描述了拓扑点空间特征。无论遮挡和背景干扰如何，局部特征仍然相当强大。

（3）全局特征：参考整个 3D 对象形状的所有最显着特征。因此，它们包括聚类视点特征直方图 [87]、全局快速点特征直方图 [88] 和基于全局半径的表面描述符 [89]。例如，形状函数集合（ESF）[90]描述了角度，点距离和区域的整体特征，主要用于检索具有相似形状的对象。此外，基于FPFH的视点特征直方图（VFH）[91]引入了视点信息[83];它主要用于点云聚类和识别。还应注意，变换后，局部要素可以成为全局要素。

2.基于DL的点云目标检测：

由于点云缺乏规律性、结构和顺序，引入深度学习需要数据处理[94]。有四种常见的处理方法体积法、投影法、图形法和直接点法。基本原理如图所示。

[5]

2.1基于深度学习的点云目标检测可分为两种：单级探测器和两级探测器。

（1）单级探测器：单级探测器直接进行目标分类和三维Bbox预测，跳过级联区域分类和Bbox优化过程。也就是说，将Bbox的目标定位问题转化为回归问题，更适合实时检测。因此，一级模型被广泛使用。单级探测器同时确定位置和分类，导致精度差和速度快。对于复杂多变的环境，物体检测需要在速度和精度之间取得平衡。

（2）两级探测器：基本的两级探测器结构类似于基于图像的两级探测器。两阶段网络以更高的检测精度细化检测结果。两级检测器采用级联方法进行Bbox回归和细化，从而提高精度并降低速度。

[6]

五、基于图像和点云融合的对象检测

与单独使用的传感器相比，传感器融合技术将来自多个传感器的信息结合起来，以减少数据的不确定性。相机提供对象的轮廓、纹理和颜色分布，但对天气和光线干扰很敏感。雷达获取有关物体位置和速度的准确信息。此外，激光雷达可在更宽松的工作条件下生成精确的 3D 场景信息

雷达和摄像头的融合，带来了优异的物体分辨率和速度信息，可以有效提高AV的感知精度，增强目标检测能力。雷达和激光雷达的融合通过两个传感器提供高精度的障碍物速度和距离，可以提高物体检测的安全冗余。

激光雷达与摄像头的融合带来了纹理特征、色彩分布和3D场景信息，保证了更高的目标分类精度，提高了小物体的检测精度。

AV中最普遍的组合之一是摄像头和激光雷达的组合，提高了环境感知的鲁棒性。一些研究将传感器融合分为两类：数据驱动和特征工程传感器融合。

1．本文基于相机—激光雷达融合模型，提供了较为精细的架构早融合、深度融合和后期融合。

1.1早期融合：

早期融合，用于初始阶段，它提取并融合每个传感器的原始数据（最低级别的抽象数据），丰富了内容和场景细节。在该融合模型中，保留了从每个传感器获得的信息，从而可能提高检测精度。

然而，两个传感器收集的数据不同，图像和点云的空间结构也不同。因此，往往需要通过适用的操作（如矩阵变换）和处理冗余信息，将两个原始数据融合为一个。

早期融合具有以下优点：它结构简单，易于实现。因此，它在基于图像和点云融合的对象检测的对象检测中起着重要作用。

在早期融合过程中，有三种通用方法可以融合相机和激光雷达数据：

（1）图像检测器驱动：图像检测器驱动的方法首先检测图像中的2D对象，然后在点云中搜索对象区域，最后融合数据。最终的3D检测结果由PointNet [115]获得，如图a所示。图像检测器驱动的方法最大限度地减少了3D检测的搜索空间，从而降低了计算成本和检测运行时间。

（2）图像语义驱动：图像语义驱动方法的关键是从图像中获取语义分割信息，然后将这些信息集成到点云中。通过语义分割信息过滤掉大量背景点，提高了检测速度。PointPainting[135]获取了图像的语义分割信息，并通过点到像素矩阵将它们映射到点云。最后，利用点云探测器获取最终结果，如图7b所示。该方法采用语义分割网络，易于及时训练，避免依赖图像。

（3）关键点驱动：关键点驱动方法采用CNN和类似模型通过两个传感器找到关键点，然后通过这些关键点将图像与点云进行匹配和融合。例如，PI-RCNN [147]首先找到一个参考点，使图像与点云重合。下一步，提取融合特征进行检测，如图7c所示。此外，关键点驱动方法的信息缺失较少并且与前两种方法相比，可靠性更高。另一方面，由于点云稀疏性和大小，计算成本高，数据匹配效果差。

1.2深度融合：

深度融合，又称特征级融合，是介于早期融合和晚期融合之间的一个阶段。它支持不同模态的特征在层上的交互，如图所示。深度融合在可变操作空间方面具有较强的鲁棒性、泛化能力和灵活性。

因此，深度融合合并了从神经网络层中相应的传感器数据（原始测量数据）中提取的多目标特征，例如相机颜色信息和雷达或激光雷达位置特征。在下一步中，它将识别多传感器特征并对其进行分类。

由于点云稀疏性，从远处和被遮挡的物体反射的有效点数量非常少。因此，很难实现预期的目标检测。引入深度融合模块提高了对遮挡和远处物体的检测性能，减少了对类似形状物体的错误检测。

根据不同模式之间的融合流特点，深度融合可分为双向引导融合和单向引导融合。

（1）双向引导融合：

特征层的双向融合保证了每种模式都包含其他模式的信息，极大地丰富了特征图。在激光雷达相机模型中，双向融合将图像和点云特征紧密融合，提高了特征表示的有效性和代表性。融合模块混合了图像和点云特征的特征图，将新的特征图单独连接到之前的每个初始特征图。

EPNet++ [157]基于EPNet [158]，引入了一种新颖的级联双向融合（CB-Fusion）模块，以生成更具判别性和全面的特征表示，如图9a所示。所述模块以级联双向交互融合的方式丰富了点特征与图像特征的综合语义信息。这为3D检测任务提供了更全面的特征表示，特别是在高度稀疏的点云场景中。

“[157] Z. Liu, T. Huang, B. Li, X. Chen, X. Wang, and X. Bai, “EPNet++: Cascade bi-directional fusion for multi-modal 3D object detection,” 2021, arXiv:2112.11088. [158] T. Huang, Z. Liu, X. Chen, and X. Bai, “EPNet: Enhancing point features with image semantics for 3d object detection,” in Proc. Eur. Conf. Comput. Vis. Cham, Switzerland: Springer, 2020, pp. 35–52.” [8]

（2）单向引导融合：

单向融合使一种模式与其他模态的特征信息融合在一起，而它们之间不受干扰。在图像和点云融合中，图像信息通常用于辅助点云特征。它将图像特征融合到相应的点云特征层中，为点提供颜色、纹理和语义信息，从而产生更深层次的特征图。

例如，MVAFNet [159]引入了专注逐点融合模块。通过注意力机制，这有效地估计了三个来源（BEV，RV和图像）的重要性，可以确保多视图特征以逐点方式自适应融合。因此，该方法可以显著减少多视图特征之间的相互干扰，而不会造成信息损失和干扰（图9b）。

“[159] G. Wang, B. Tian, Y. Zhang, L. Chen, D. Cao, and J. Wu, “Multi-view adaptive fusion network for 3D object detection,” 2020, arXiv:2011.00652.” [9]

UberATG-MMF [160]采用逐点和RoI特征融合来实现完全多传感器融合（图9c）。应用逐点特征融合将多尺度图像特征融合到BEV流中，生成高质量的3D检测及其投影的2D检测。RoI特征融合结合了图像RoIs和BEV导向RoIs的特征，实现了更精确的2D和3D盒回归。

“[160] M. Liang, B. Yang, Y. Chen, R. Hu, and R. Urtasun, “Multi-task multi-sensor fusion for 3D object detection,” in Proc. IEEE/CVF Conf. Comput. Vis. Pattern Recognit., Jun. 2019, pp. 7345–7353.” [10]

1.3后期融合：

后期融合发生在最后的传感器融合阶段，称为决策级融合。每个传感器的信息通过独立的网络进行检测;然后融合每个网络的检测结果（见图10）。后期融合仅融合了两个传感器的检测结果，无法丰富其特征。

在这种融合中，模态被单独和独立地处理，直到最后阶段。该方案不要求所有模态都可用，因为它也可以依赖于单个模态的预测。此外，由于它不包括图像和点云之间的复杂交互（例如，时间同步，空间对齐，特征相关），因此与前两种融合结构相比，它更容易实现。

后期融合既属于模块化融合方法又属于独立融合方法：

·前者“模块化”，意味着后期融合有图像检测、点云检测和融合模块三个模块。融合模块可以融合和细化两个预测结果。

·后者“独立”，意味着传感器之间互不干扰（即独立工作），提高感知可靠性。当一个传感器发生故障时，它可以暂时减少甚至丢弃故障传感器的数据。

（2）硬件和外部环境是传感器故障的两个主要原因：

·硬件的影响很小，但很难量化。

·外部环境的干扰是影响物体检测的最重要因素之一。

当为了提高融合精度时，通常根据传感器的自适应范围来设置每个检测结果的权重。与前面介绍的方法相比，当任何传感器（相机、激光雷达）的信息或数据不准确或丢失时，后期融合可以保证检测结果更高的可靠性。

（3）后期融合研究方法：

·2016年，Kim和Ghosh[169]使用Fast R-CNN在图像和点云中生成相应的区域建议，然后融合这些RoI以获得最终的检测结果。

·2018年，Asvadi等人[170]使用YOLO产生图像和点云的检测结果，然后将它们融合。

·上述两种方法严重依赖基于图像的目标检测算法，其检测结果在KITTI上并不令人满意。现在，点云检测已经取得了重大成功。

·2020年，Pang等人[171]提出了CLOCs，在KITTI上取得了很好的成果。使用最先进的 2D 和 3D 检测器生成相应的候选 Bbox 并将其编码为稀疏张量。最后，张量被卷积并融合。

·FastCLOC [172] 用轻量级 3D 探测器提示的 2D 图像探测器（3D-Q-2D）模块取代了单独的重型 2D 探测器。该提议的探测器使用投影的3D候选者作为区域建议，并对其进行改进以预测其2D方向。

1.4所有三种基于融合的方法都存在缺陷，可能导致结果不令人满意。

（1）早期融合的融合水平最低，结构简单，也有一些明显的缺点：

·严重依赖两个传感器;如果任一传感器出现故障，则检测失败。

·还需要数据校准、数据关联等技术。但是，相关技术仍处于开发阶段，可能会导致较大的检测误差。

·原始数据通常包含大量冗余信息，造成大量时间浪费，不适合实时处理。

（2）后期融合只是融合和改进RoIs，而不是产生新的检测结果，因此它无法充分利用融合传感器感知的潜力。也就是说，其主要目标是提高检测召回率，而不是准确性。

（3）深度融合方法仍然难以实现，并且存在一些信息损失，包括来自不同模式和尺度的特征向量的相互作用和融合导致有限的信息损失。

六、讨论与展望

1.更多可靠的数据集：

虽然现有的数据集能够有效的验证物体检测方法的有效性。但是他们还是存在一些问题：

（1）它们缺乏极端情况，使得检测异常、新的和潜在危险的情况变得更加困难 [18]。

（2）驾驶时，会遇到各种各样的情况，包括恶劣的天气、照明和庇护所，但也会遇到许多看似简单却让计算机感到困惑的场景——广告牌上的人、汽车和道路上的行人标志。

（3）边角案例还包括复杂异常的场景，如道路上的动物、盲区、十字路口的交互问题等。

（4）缺乏应对意外或未知情况的检测经验，严重影响道路安全，阻碍自动驾驶汽车的发展。

2.更精确的传感器融合：

虽然激光雷达和摄像头的融合很有吸引力。但他还是存在一些问题：

（1）在数据对齐和关联方面遇到了困难的问题，严重影响了目标检测的准确性和速度。

（2）数据由各种传感器收集，这无疑会导致时间、空间和数据形式的差异。

（3）传感器融合还面临着不精确和不确定性，例如与校准误差、量化误差和精度损失。

3.更实用的检测网络：

目前，目标检测方法应该更加便携和适应性更强。

一方面，物体检测方法受到各种传感器类型和规格的影响。一些突出的方法仅适用于特定规格或传感器类型；因此，它们很难在工业应用中普及。因此，设计便携式检测网络是一个重要的研究方向，对自动驾驶的发展具有巨大的作用。

另一方面，实际驾驶环境错综复杂且不可预测，目标检测方法无法处理各种复杂情况。如果能够根据驾驶场景合理、快速地选择最佳的检测网络，就有可能实现准确、快速的检测。智能地选择最合适的检测网络，同时实现检测网络的适应性，是智能汽车普及的重要因素。

4.检测更准确、更快速

准确性和运行时间是最重要的对象检测指标。一旦发生漏检、误检、延时检测，将造成严重的交通事故。

5.传感器硬件技术更加成熟

这些典型的传感器仍然存在明显的感知缺陷：

（1）存在感知盲点，这意味着某些区域和物体无法被感知。例如，光、雨、雪、雾、灰尘和类似的恶劣天气条件可能会导致它们。

（2）感知辨别能力低，即它可以感知但不能识别物体。

（3）存在反馈时间长、信号弱等缺点。这些可能无法及时响应识别的对象。此外，传感传感器的高成本阻碍了智能驾驶的发展。

说明：文章中的内容和图片均来自论文原文。

DOI：10.1109/TITS.2022.3206235

[1] Peng等, 《Survey on Image and Point-Cloud Fusion-Based Object Detection in Autonomous Vehicles》, 22785.