Abstract
本文针对自动驾驶场景中的高精度三维物体检测。我们提出了多视点三维网络(MV3D),这是一个感知融合框架,将LIDAR点云和RGB图像作为输入,并预测定向的3D边界框。我们用紧凑的多视图表示编码稀疏三维点云。网络由两个子网组成:一个用于三维物体建议生成,另一个用于多视点特征融合。提议网络从3D点云的鸟瞰图表示中有效地生成3D候选框。我们设计了一种深度融合方案,将多个视图中的区域特征相结合,并实现不同路径中间层之间的交互。在具有挑战性的KITTI基准测试中进行的实验表明,我们的方法在三维定位和三维检测任务方面胜过了最先进的约25%和30%的AP。另外,对于二维检测,我们的方法比基于LIDAR的方法中的硬数据获得高14.9%的AP。
1. Introduction
三维物体检测在自主驾驶汽车的视觉感知系统中起着重要的作用。现代自驾车通常配备有多个传感器,例如LIDAR和相机。激光扫描仪具有准确的深度信息的优点,而相机保存更多更详细的语义信息。
LIDAR点云与RGB图像的融合应该能够实现更高的自驾车性能和安全性。
本文的重点是利用激光雷达和图像数据进行三维物体检测。我们的目标是在道路场景中对物体进行高度精确的3D定位和识别。最近的基于LI