论文链接:BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation
代码链接:https://github.com/mit-han-lab/bevfusion
作者:Zhijian Liu,Haotian Tang,Alexander Amini,Xinyu Yang,Huizi Mao,Daniela Rus,Song Han
发表单位:MIT、上海交通大学
会议/期刊:ICRA 2023
一、研究背景
自动驾驶系统上往往部署了多个传感器,例如,Waymo 的自动驾驶汽车有 29 个摄像头、6 个雷达和 5 个激光雷达。不同的传感器提供互补信号:例如,摄像头捕获丰富的语义信息,LiDAR 提供准确的空间信息,而雷达提供即时速度估计。因此,多传感器融合对于准确可靠的感知具有重要意义。
来自不同传感器的数据以本质不同的方式表示:例如,摄像头以透视视图捕获数据,而激光雷达以 3D 视图捕获数据。为了解决这种视图差异,我们必须找到一个适合多任务多模态特征融合的统一表示。
如图(a)所示,LiDAR→camera,原本的3D点位置关系会发生扭曲,本来红点和蓝点距离比较远,结果投影后便相邻了;如图(b)所示,一个密集的2D图像区域,可能只被很少的点云数据覆盖(因为点云近密远疏)。
目前在多模态融合上有2套常见的方法:(1)LiDAR→camera,这会造成几何畸变;(2)camera→LiDAR,仅少量像素点会和3D特征匹配,造成语义密度差异。
对于方案(1),由于 2D 感知取得了巨大成功,自然而然的想法是将 LiDAR 点云投射到相机上,并使用 2D CNN 处理 RGB-D 数据。然而,这种LiDAR到相机的投影引入了严重的几何畸变(见图1a),这使得它对面向几何的任务(如3D物体识别)的效果较差。
当将LiDAR数据投影到相机上时,通常使用2D表示形式(例如2.5D深度图),这种转换是几何上有损的。这意味着原始3D LiDAR数据中的空间关系在映射到2D相机图像时可能会发生扭曲。例如,在深度图上靠近的两个点在3D空间中实际上可能相距很远。这种畸变使得数据在依赖精确几何结构的任务中效果不佳,如3D物体检测。
对于方案(2),使用语义标签、CNN 特征或来自 2D 图像的虚拟点来增强 LiDAR 点云,然后应用现有的基于 LiDAR 的探测器来预测 3D 边界框。尽管它们在大规模检测基准测试中表现出了卓越的性能,但这些点级融合方法几乎不适用于面向语义的任务,例如BEV分割。当将相机数据投影到LiDAR上时,会导致语义密度的损失。这是因为与相机捕获的密集像素数据相比,LiDAR数据是稀疏的。在典型的设置中,如32束LiDAR,只有不到5%的相机特征将直接对应于一个LiDAR点。这种稀疏的匹配意味着很多相机捕获的语义信息(细节和上下文数据)未被使用,这降低了融合数据在语义导向任务(如鸟瞰图(BEV)地图分割)中的有效性。
作者提出了第三种方案——BEVFusion 将摄像头和 LiDAR 功能统一在一个共享的 BEV 空间中,而不是将一种模式映射到另一种模式。它保留了相机的语义密度和激光雷达的几何结构。
本文贡