什么是多模态3D目标检测?
多模态3D目标检测是当前3D目标检测研究热点之一,主要是指利用跨模态数据提升模型的检测精度。一般而言,多模态数据包含:图像数据、激光雷达数据、毫米波雷达数据、双目深度数据等,本文主要关注于当前研究较多的RGB+LiDAR融合3D目标检测模型进行汇总和总结,希望可以给大家带来一定的启发。
多模态3D目标检测主要方法
(一) 决策级融合 (Decision-level)
所谓的决策级融合,一般而言是指直接利用2D/3D基础网络的检测结果,为后续bounding box的优化提供初始位置。决策级融合的优点是:仅对不同模态的输出进行多模态融合,避免了中间特征或输入点云上复杂的交互,因此往往更加高效。但是,也面临一定的缺陷:由于不依赖于相机和激光雷达传感器的深度特征,这些方法无法整合不同模式的丰富语义信息,限制了这类方法的潜力。
论文标题:CLOCs: Camera-LiDAR Object Candidates Fusion for 3D Object Detection
论文地址:https://arxiv.org/pdf/2009.00784.pdf
作者单位:Su Pang等,Michigan State University
核心思想:作者认为,对于决策级的融合而言,多模态数据不需要与其他模态进行同步或对齐,且利用二者的检测结果排除了大部分冗余背景区域,因此更有助于网络学习。
方法简述:
如上图所示,CLOCs整体流程可分为3步:
-
步骤1:分别输入图像和点云,分别预测2D detections和3D detections;
-
步骤2:去除部分IoU=0的候选框,对保留的候选框进行特征提取;
-
步骤3:得到最终的检测结果。
方法相对而言比较简单,从步骤1也能清晰看出,CLOCs是利用检测结果进行的跨模态融合,因此属于决策级融合的范畴。在KITTI testset的检测结果如下图所示,在多模态方法中还是比较具有竞争力的。

论文标题:Frustum Pointnets for 3D Object Detection from RGB-D Data
论文地址:https://arxiv.org/pdf/1711.08488.pdf
作者单位:Charles R. Qi等,Stanford University
核心思想:作者认为,使用2D目标检测结果生成3D锥形建议区域,省略直接在大范围的空间中检索,同时提升了目标的识别准确度。
方法简述:

如上图所示,Frustum PointNet整体流程可分为3步:
-
步骤1:通过2D网络预测2D Proposal;
-
步骤2:将2D Proposal映射为3D锥体,作为后续3D检测的建议区域;
-
步骤3:在步骤2提取出的建议区域中,进行通用3D检测流程;
同样,整体思路也比较简单清晰,从步骤1也能看出,Frustum PointNet是利用2D检测结果,为3D检测提供initial region,因此,大大减少了3D搜索空间。从网络流程上看,更为简洁高效。同时,由于拥有2D proposal提供的初始位置,3D网络的搜索位置也更为准确,整体检测性能也略有提高,在KITTI testset的检测结果如下图所示,

本文详细介绍了多模态3D目标检测的两种主要方法:决策级融合和特征级融合,包括相关论文的工作原理、流程及其实验结果。决策级融合通过直接融合不同模态的检测结果提升精度,而特征级融合则在中间特征层进行融合,以整合不同模式的丰富语义信息。具体实例包括CLOCs、Frustum PointNet、MV3D、AVOD、Cross-Modality 3D Object Detection、SparseFuse Dense、MMF、MVX-Net、PointPainting、PI-RCNN和EPNet等方法。这些方法在自动驾驶、机器人导航等领域有着广泛的应用前景。
最低0.47元/天 解锁文章
1924

被折叠的 条评论
为什么被折叠?



