【多模态融合】BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird‘s-Eye View Representation

BEVFusion提出了一种新的方法,通过共享的鸟瞰视图(BEV)融合摄像头和LiDAR数据,保持3D几何结构和2D语义密度。文章介绍了BEVFusion在自动驾驶中的优势,包括对3D感知任务的支持、相机到BEV的高效转换以及针对效率瓶颈的优化。实验结果显示,BEVFusion在3D目标检测和BEV地图分割上达到了新的SOTA性能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

论文链接:BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird's-Eye View Representation

代码链接:https://github.com/mit-han-lab/bevfusion

作者:Zhijian Liu,Haotian Tang,Alexander Amini,Xinyu Yang,Huizi Mao,Daniela Rus,Song Han

发表单位:MIT、上海交通大学

会议/期刊:ICRA 2023

一、研究背景

自动驾驶系统上往往部署了多个传感器,例如,Waymo 的自动驾驶汽车有 29 个摄像头、6 个雷达和 5 个激光雷达。不同的传感器提供互补信号:例如,摄像头捕获丰富的语义信息,LiDAR 提供准确的空间信息,而雷达提供即时速度估计。因此,多传感器融合对于准确可靠的感知具有重要意义。

来自不同传感器的数据以本质不同的方式表示:例如,摄像头以透视视图捕获数据,而激光雷达以 3D 视图捕获数据。为了解决这种视图差异,我们必须找到一个适合多任务多模态特征融合的统一表示。

如图(a)所示,LiDAR→camera,原本的3D点位置关系会发生扭曲,本来红点和蓝点距离比较远,结果投影后便相邻了;如图(b)所示,一个密集的2D图像区域,可能只被很少的点云数据覆盖(因为点云近密远疏)。

目前在多模态融合上有2套常见的方法:(1)LiDAR→camera,这会造成几何畸变;(2)camera→LiDAR,仅少量像素点会和3D特征匹配,造成语义密度差异。

对于方案(1),由于 2D 感知取得了巨大成功,自然而然的想法是将 LiDAR 点云投射到相机上,并使用 2D CNN 处理 RGB-D 数据。然而,这种LiDAR到相机的投影引入了严重的几何畸变(见图1a),这使得它对面向几何的任务(如3D物体识别)的效果较差。

当将LiDAR数据投影到相机上时,通常使用2D表示形式(例如2.5D深度图),这种转换是几何上有损的。这意味着原始3D LiDAR数据中的空间关系在映射到2D相机图像时可能会发生扭曲。例如,在深度图上靠近的两个点在3D空间中实际上可能相距很远。这种畸变使得数据在依赖精确几何结构的任务中效果不佳,如3D物体检测。

对于方案(2),使用语义标签、CNN 特征或来自 2D 图像的虚拟点来增强 LiDAR 点云,然后应用现有的基于 LiDAR 的探测器来预测 3D 边界框。尽管它们在大规模检测基准测试中表现出了卓越的性能,但这些点级融合方法几乎不适用于面向语义的任务,例如BEV分割。当将相机数据投影到LiDAR上时,会导致语义密度的损失。这是因为与相机捕获的密集像素数据相比,LiDAR数据是稀疏的。在典型的设置中,如32束LiDAR,只有不到5%的相机特征将直接对应于一个LiDAR点。这种稀疏的匹配意味着很多相机捕获的语义信息(细节和上下文数据)未被使用,这降低了融合数据在语义导向任务(如鸟瞰图(BEV)地图分割)中的有效性。

作者提出了第三种方案——BEVFusion 将摄像头和 LiDAR 功能统一在一个共享的 BEV 空间中,而不是将一种模式映射到另一种模式。它保留了相机的语义密度和激光雷达的几何结构。

本文贡

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值