论文主要思路
作者提出了DeepFusion,这是一种模块化多模式架构,可将激光雷达、相机和radar以不同的组合融合在一起,用于3D目标检测。专有的特征提取器利用了每种模式,并且可以轻松地交换,使得方法简单灵活,提取的特征被转换为鸟瞰图,作为融合的通用表示,并在特征空间中融合模态之前执行空间和语义对齐。最后,检测头利用丰富的多模态特征来提高3D检测性能。激光雷达相机、激光雷达相机雷达和相机雷达融合的实验结果表明了该融合方法的灵活性和有效性,在这个过程中,作者还研究了远至225米远的车辆检测这一基本上未被探索的任务,展示了本文的激光雷达聚变的好处。此外还研究了3D目标检测所需的激光雷达点密度,并举例说明了对不利天气条件的鲁棒性,对相机雷达融合的消融研究突出了精确深度估计的重要性。
领域背景
安全准确的3D目标检测是自主驾驶的核心技术,所有后续组件(如跟踪、预测和规划)在很大程度上取决于检测性能,其它交通参与者的感知错误可能会通过系统传播,导致自动驾驶车辆严重故障。为了防止这种错误,感知系统需要仔细设计,这仍然是一个具有挑战性的研究问题。多个传感器和不同的模态,主要是激光雷达、RGB相机和雷达,通常用于应对这一目标检测挑战。多个传感器提高了系统冗余度,但不同的模态提高了检测鲁棒性,因为它们的互补物理特性可用于克服单一模态失效的不同驾驶场景。例如,激光雷达和相机在多雾天气条件下会严重退化,而雷达则相对不受影响。另一方面,雷达和单目相机存在稀疏或不精确的深度估计,这可以通过密集和精确的激光雷达点云进行补偿。
在过去的几年中,利用激光雷达、camera、雷达进行3D目标检测的任务取得了巨大进展,这一趋势由公共大规模多模态数据集推动,如nuScenes和Waymo开放数据集。然而,研究界主要关注距离达75米的近距离3D物体检测,本问主要强调远距离物体检测的重要性,因为对其他交通参与者及其行为的早期检测可以实现更安全、更快、更平稳的整体系统反应,尤其是在高速公路场景中。因此,本文的目标是一种可扩展到200米范围以上的目标检测器设计,使用多个传感器和模态的主要挑战是融合大量冗余和互补的传感器数据,在多个传感器与感知输出的接口处,融合对整个系统的性能有着重要的影响。大多数现有的工作集中在融合激光雷达和RGB相机传感器用于3D目标检测[8]、[17]–[24]。较少探索的是相机雷达融合[25]–[27]和激光雷达雷达融合[28]、[29],后者分别用于语义热图预测和2D目标检测。作者认为有必要为3D目标检测开发一个简单而灵活的激光雷达-camera-radar融合网络,因为雷达传感器在测量原理上与激光雷达和camera互补,雷达技术随着市场需求的增长而迅速发展。
作者提出了一种模块化网络架构,用于融合激光雷达、相机和雷达,以实现精确、稳健和远距离的3D物体检测。该方法采用可交换的特征提取器,以产生单模态检测器的良好优化架构。提取出的每种模态的丰富特征然后被转换为一个共同的鸟瞰图表示,以便在共享的潜在空间中进行方便的融合。这种网络设计使我们能够轻松地研究不同模态组合的融合,重点是激光雷达相机、激光雷达相机雷达和相机雷达融合。
多模态融合的方法
RGB相机图像捕捉物体的详细纹理信息,广泛应用于物体分类,然而,camera不能直接提供深度信息,这使得3D视觉任务具有挑战性,尤其是在单摄像机设置下。雷达点提供方位角速度和径向距离,这有助于定位动态目标。雷达对各种照明和天气条件也具有鲁棒性,然而,使用雷达的3D目标检测受到低分辨率和错误的高程估计的限制。激光雷达点提供了周围环境的准确深度信息,与分别具有错误深度估计或稀疏度的相机图像或雷达点相比,激光雷达点在3D空间中具有更高的目标细节分辨率。因此,许多3D目标检测benchmark(如KITTI或nuScenes)都由基于激光雷达的解决方案。
RGB相机和激光雷达是文献中最常见的融合传感器,此外,[35]将RGB图像与热图像相结合,[36]将激光雷达点云与高清地图相结合,最近越来越多的作品将RGB相机图像与雷达相结合[25]–[27],只有[28]提出了融合激光雷达、雷达和RGB图像

最低0.47元/天 解锁文章
2209

被折叠的 条评论
为什么被折叠?



