断其一指,无惧!ProFusion3D: 相机或者激光失效仍高效的多传感器融合3D目标检测算法

断其一指,无惧!ProFusion3D: 相机或者激光失效仍高效的多传感器融合3D目标检测算法

Abstract

多传感器融合在自动驾驶中的3D目标检测中至关重要,摄像头和激光雷达是最常用的传感器。然而,现有方法通常通过将两种模态的特征投影到鸟瞰视角(BEV)或透视视角(PV)来进行单视角的传感器融合,从而牺牲了高度或几何比例等互补信息。为了解决这个问题,我们提出了ProFusion3D,一种渐进融合框架,它在中间特征和目标查询级别中同时结合了BEV和PV中的特征。我们的架构通过分层融合局部和全局特征,提高了3D目标检测的鲁棒性。此外,我们引入了一种自监督掩码建模预训练策略,通过三个新的目标来提高多模态表示学习和数据效率。基于nuScenes和Argoverse2数据集的大量实验证明了ProFusion3D的有效性。此外,ProFusion3D在传感器失效时也表现出强大的鲁棒性,即使仅有一种模态可用时,仍能保持较好的性能。

代码获取:http://profusion3d.cs.uni-freiburg.de

 欢迎加入自动驾驶实战群

Introduction

可靠的目标检测对于自动驾驶至关重要,因为它能够帮助车辆通过准确识别和定位周围的物体来安全导航环境。为了增强鲁棒性,激光雷达与摄像头的融合成为了主流范式,利用来自不同模态的互补信息。然而,由于这些模态本质上的差异,其数据分布也不同,这带来了显著的挑战。为了解决这一问题,已经探索了各种多模态融合策略,这些策略主要在以下方面存在差异:融合的表示形式(鸟瞰视角BEV或透视视角PV),以及融合的阶段(原始输入、中间特征或目标查询)。虽然使用单一表示形式可以通过将两种模态的特征映射到一个公共空间中来简化融合过程,但也会导致信息丢失,比如在BEV中的高度信息丢失,以及PV中的遮挡和透视失真。同样,在原始输入阶段进行融合可能会引入传感器噪声和无关信息。在中间特征融合时,可能会丢失模态特定的信息,而在目标查询级别进行融合则允许集成高级语义信息,但过度依赖这些信息的质量,可能会影响鲁棒性。本文提出了一种渐进式融合方法,在中间特征和目标查询级别中,同时融合BEV和PV中的特征。这种渐进的集成使得模型能够有效结合并利用不同视角和融合阶段的优势。

最近,自监督学习方法如掩码图像建模(MIM)和掩码点建模(MPM)在从大规模无标签数据中提取强表示方面取得了巨大成功,尤其是在图像和点云方面。这些方法提高了下游任务的微调表现,并改善了数据效率。这引发了一个重要的问题:类似的技术是否可以应用于汽车场景中的多模态传感器融合,以实现3D目标检测?虽然一些之前的工作已经探索了在无标签数据集上进行激光雷达-摄像头融合的预训练,但它们通常设计用于小型、密集的点云,这些点云具有室内环境中的均匀点密度。然而,这些方法并不适用于涉及较大、更稀疏和更异构数据的汽车环境。为了解决这一问题,我们提出了一种适用于稀疏室外点云的有效多模态掩码建模预训练框架。

本文提出了ProFusion3D框架,该框架执行渐进式激光雷达-摄像头传感器融合,并引入了一种新颖的自监督掩码建模预训练策略,以提高3D目标检测的性能。我们的模型在中间特征级别和目标查询级别同时融合BEV和PV中的特征。这种综合的融合策略使得我们的模型能够有效利用局部和全局特征,显著提高了3D目标检测的准确性和鲁棒性,即使在传感器故障的情况下也能保持良好的性能。

3.Method

在本节中,我们首先介绍提出的ProFusion3D框架的架构,它利用渐进融合进行3D目标检测,如图2a所示。接着我们详细介绍其主要组件:模态内外融合模块和解码器。最后,我们引入ProFusion3D的多模态掩码建模方法(见图5),并详细说明三种预训练目标。

图片

图片

3.1 ProFusion3D架构

ProFusion3D架构以LiDAR点云和多视角相机图像作为输入,使用相应的编码器对每种模态进行编码,以计算LiDAR模态的BEV(鸟瞰视角)特征

图片

和相机模态的PV(透视视角)特征

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值