SGFusion:用于3D目标检测的相机 - 激光雷达语义与几何融合
1. 引言
随着自动驾驶、家用机器人和智能交易的发展,3D目标检测作为一项关键且不可或缺的任务,受到了广泛研究。目前,激光雷达(LiDAR)传感器是自动驾驶中最常用的3D传感器,它能提供3D点云来捕捉场景的3D结构。受益于基于点云表示的深度学习技术的发展,人们提出了各种基于LiDAR的3D目标检测方法。
然而,基于LiDAR的检测器的性能受到点云固有缺陷的限制,例如点云的稀疏性、缺乏纹理和颜色信息。另一方面,相机可以提供丰富的纹理和颜色信息。将这两种传感器结合起来,为提高3D检测性能提供了一种可行的方法,但找到一种优秀的融合方法是一项具有挑战性的任务。
许多多模态融合方法被提出,如MV3D提出了一种ROI特征融合策略,CLOCs通过利用2D和3D检测候选的对应关联来获得更精确的3D边界框置信度,PointPainting是一种简单而有效的顺序融合框架,在不同的3D检测基准上取得了出色的性能。
但过度依赖精确的像素级语义掩码会削弱3D检测器从点云中提取信息的能力。本文提出了一种名为SGFusion的新型融合框架,它可以在语义和几何层面上简单而有效地融合不同类型的传感器信息,显著提高3D目标检测性能。
主要贡献
- 首次提出了一个通用的两阶段融合框架“SGFusion”,在语义和几何层面融合不同模态的信息,显著提高了3D目标检测性能。
- 指出粗粒度的目标级语义掩码可以为3D目标检测提供足够的语义信息,避免过拟合问题。此外,2D检测可以直接用于几何融合,进一步提高检测精度。
- 通过在KITTI数据集上
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



