Waymo和KITTI双SOTA!3D目标检测中的同质多模态特征融合与交互(ECCV2022)

论文介绍了一种新的3D目标检测方法HMFI,通过构建点云和图像的均匀结构,避免信息丢失,提出IVLM提升图像特征到3D,QFM融合特征并保持一致性,VFIM增强目标级语义一致性。在KITTI和Waymo数据集上,HMFI超越现有方法,尤其是在骑车者检测上。

论文链接:https://arxiv.org/pdf/2210.09615.pdf

主要思路

多模态3D物体检测一直是自动驾驶领域中的一个活跃研究课题,然而,探索稀疏3D点和密集2D像素之间的跨模态特征融合并非易事,最近的方法要么将图像特征与投影到2D图像平面上的点云特征融合,要么将稀疏点云与密集图像像素组合。这些融合方法经常遭受严重的信息丢失,从而导致性能次优。为了解决这些问题,本文构建了点云和图像之间的均匀结构,通过将相机特征转换到LiDAR 3D空间中来避免投影信息丢失。论文主要提出了一种用于三维目标检测的同质多模态特征融合与交互方法(HMFI)。具体来说,首先设计了一个图像体素提升模块(IVLM),以将2D图像特征提升到3D空间中并生成均匀图像体素特征。然后,通过引入基于self-attention的查询融合机制(QFM),将体素化的点云特征与来自不同区域的图像特征进行融合。接下来,提出了一个体素特征交互模块(VFIM),以增强同质点云和图像体素表示中相同对象的语义信息的一致性,这可以为跨模态特征融合提供对象级对齐指导,并增强复杂背景下的辨别能力。在KITTI和Waymo开放数据集上进行了广泛的实验,与最先进的多模态方法相比,提出的HMFI实现了更好的性能。特别是,对于KITTI基准上的骑车的人3D检测,HMFI大大超过了所有已发布的算法!!!

领域背景

3D目标检测是一项重要任务,旨在精确定位和分类3D空间中的每个物体,从而使车辆能够全面感知和了解周围环境。到目前为止,已经提出了各种基于激光雷达和基于图像的3D检测方法[33,34,36,24,40,18,41,39,9,6,26]。基于激光雷达的方法可以实现优于基于图像的方法的性能,因为点云方法包含精确的空间信息。但是,激光雷达点通常是稀疏的,没有足够的颜色和纹理信息。与基于图像的方法相比,它们在捕获语义信息方面表现更好,同时又缺乏深度信号。因此,多模态三维目标检测是一个很有前途的方向,它可以充分利用图像和点云的互补信息。最近的多模态方法通常可分为两类:决策级融合和特征级融合。决策级融合方法将检测到的目标集成在各自的模态中,其性能受每个阶段的限制。特征级融合更为普遍,因为它们融合了两种模态的丰富信息特征。图1(a)描述了三种典型的特征级融合方法,第一种是融合感兴趣区域(RoI)的多模态特征。然而,这些方法在2D平面中将3D点投影到鸟瞰图(BEV)或前视图(FV)上时会产生严重的空间信息损失,而3D信息在准确的3D目标定位中起着关键作用。另一项工作是在点/体素级别上进行融合[43,49,55,21,22,50,14,59],这可以在更精细的粒度上实现互补融合,并涉及3D点或2D像素处的低级多模态特征的组合。然而,它们只能近似地在点/体素特征和图像特征之间建立相对粗糙的对应关系,此外,由于2D密集图像像素和3D稀疏激光雷达点之间的投影不匹配,这两种特征融合方案通常会遭受严重的信息损失。

217b4a597654cc9f38d26206685687e4.png

为了解决上述问题,论文提出了一种同质融合方案,该方案将图像特征从2D平面提升到3D密集体素结构。在同质融合方案中,提出了同质多模态特征融合与交互方法(HMFI),该方法利用了多模态特征中的互补信息,并减轻了由降维映射引起的严重信息损失。此外,基于同构3D结构在目标层次上构建点云特征和图像特征之间的跨模态特征交互,以增强模型将图像语义信息与点云融合的能力。具体来说,论文设计了一个图像体素提升模块(IVLM)来提升2D图像,首先将图像特征映射到3D空间,并构造2D图像的均匀体素结构,用于多模态特征融合,该融合由点云作为深度提示进行引导,融合这两个多模态数据不会造成信息丢失。还注意到,跨模态数据的均匀体素结构有助于特征融合和交互。因此,本文引入了查询融合机制(QFM),该机制引入了一种基于self-attention的操作,可以自适应地结合点云和图像特征。每个点云体素将查询所有图像体素以实现同质特征融合,并与原

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值