多模态3D目标检测发展路线方法汇总！(决策级/特征级/点/体素融合)

原创

已于 2022-12-06 11:27:43 修改 · 1.3k 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#目标检测 #3d #深度学习 #计算机视觉 #人工智能

于 2022-11-28 07:30:07 首次发布

本文详细介绍了多模态3D目标检测的两种主要方法：决策级融合和特征级融合，包括相关论文的工作原理、流程及其实验结果。决策级融合通过直接融合不同模态的检测结果提升精度，而特征级融合则在中间特征层进行融合，以整合不同模式的丰富语义信息。具体实例包括CLOCs、Frustum PointNet、MV3D、AVOD、Cross-Modality 3D Object Detection、SparseFuse Dense、MMF、MVX-Net、PointPainting、PI-RCNN和EPNet等方法。这些方法在自动驾驶、机器人导航等领域有着广泛的应用前景。

什么是多模态3D目标检测？

多模态3D目标检测是当前3D目标检测研究热点之一，主要是指利用跨模态数据提升模型的检测精度。一般而言，多模态数据包含：图像数据、激光雷达数据、毫米波雷达数据、双目深度数据等，本文主要关注于当前研究较多的RGB+LiDAR融合3D目标检测模型进行汇总和总结，希望可以给大家带来一定的启发。

多模态3D目标检测主要方法

(一) 决策级融合 (Decision-level)

所谓的决策级融合，一般而言是指直接利用2D/3D基础网络的检测结果，为后续bounding box的优化提供初始位置。决策级融合的优点是：仅对不同模态的输出进行多模态融合，避免了中间特征或输入点云上复杂的交互，因此往往更加高效。但是，也面临一定的缺陷：由于不依赖于相机和激光雷达传感器的深度特征，这些方法无法整合不同模式的丰富语义信息，限制了这类方法的潜力。

论文标题：CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection

论文地址：https://arxiv.org/pdf/2009.00784.pdf

作者单位：Su Pang等，Michigan State University

核心思想：作者认为，对于决策级的融合而言，多模态数据不需要与其他模态进行同步或对齐，且利用二者的检测结果排除了大部分冗余背景区域，因此更有助于网络学习。

方法简述：

图1 CLOCs框架原理图

如上图所示，CLOCs整体流程可分为3步：

步骤1：分别输入图像和点云，分别预测2D detections和3D detections；
步骤2：去除部分IoU=0的候选框，对保留的候选框进行特征提取；
步骤3：得到最终的检测结果。

方法相对而言比较简单，从步骤1也能清晰看出，CLOCs是利用检测结果进行的跨模态融合，因此属于决策级融合的范畴。在KITTI testset的检测结果如下图所示，在多模态方法中还是比较具有竞争力的。

图2 CLOCs实验结果图 (KITTI testset)

论文标题：Frustum Pointnets for 3D Object Detection from RGB-D Data

论文地址：https://arxiv.org/pdf/1711.08488.pdf

作者单位：Charles R. Qi等，Stanford University

核心思想：作者认为，使用2D目标检测结果生成3D锥形建议区域，省略直接在大范围的空间中检索，同时提升了目标的识别准确度。

方法简述：

图3 Frustum PointNet框架原理图

如上图所示，Frustum PointNet整体流程可分为3步：

步骤1：通过2D网络预测2D Proposal；
步骤2：将2D Proposal映射为3D锥体，作为后续3D检测的建议区域；
步骤3：在步骤2提取出的建议区域中，进行通用3D检测流程；

同样，整体思路也比较简单清晰，从步骤1也能看出，Frustum PointNet是利用2D检测结果，为3D检测提供initial region，因此，大大减少了3D搜索空间。从网络流程上看，更为简洁高效。同时，由于拥有2D proposal提供的初始位置，3D网络的搜索位置也更为准确，整体检测性能也略有提高，在KITTI testset的检测结果如下图所示，