北邮提出 FGU3R:统一3D表示用于多模态3D目标检测 !

作者 | AI 驾驶员 编辑 | 智驾实验室

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『3D目标检测』技术交流群

本文只做学术分享,如有侵权,联系删文

38c07a99f06183ef19a4a70e1eb7f1d2.jpeg

多模态3D目标检测在自动驾驶领域引起了广泛关注。然而,多模态检测器由于将3D点和2D像素粗略融合而存在维度不匹配问题,这导致了融合性能欠佳。

在本文中,作者提出了一种名为FGU3R的多模态框架来解决上述问题,通过统一的3D表示和精细融合来实现,该框架包含两个重要组成部分。

首先,作者提出了一种用于原始点和伪点的有效特征提取器,称为伪原始卷积(PRConv),它同步调节多模态特征,并基于多模态交互在关键点上聚合不同类型点的特征。

其次,设计了一种交叉注意力自适应融合(CAAF),通过交叉注意力变体以精细的方式自适应地融合同质3D RoI(兴趣区域)特征。这两个部分共同实现了在统一3D表示上的精细融合。

在KITTI和nuScenes数据集上进行的实验表明,作者提出的方法是有效的。


引言

3D目标检测,旨在智能预测3D空间中物体的类别、位置和尺寸,在许多领域发挥着至关重要的作用,例如机器人视觉和自动驾驶。在过去几年中,尽管基于LiDAR的检测器[4]-[8]取得了巨大成就,但由于LiDAR点云固有的缺陷,如稀疏性和语义贫乏,其性能仍然不尽如人意。最近的研究尝试引入多模态数据以克服基于LiDAR检测器的局限性。[9]-[11]利用成熟的二维检测器精确地捕捉3D空间中的锥体,以去除冗余的背景点。然而,它们的性能受到二维检测器的限制。旨在将点云转换为二维表示,通过视角变换与二维图像进行维度匹配,从而允许二维卷积提取特征。PointPainting[19]通过传感器校准投影将语义分割生成的语义分数附加到相应的原始点上。[20]-[22]建立了点云特征与RGB图像之间的联系,以探索细粒度的融合。[23]、[24]引入了注意力机制,在特征 Level 融合点与RGB像素。[25]利用多个相关任务来补充3D任务的特性。FUTR3D[26]利用Transformer对模态无关的隐式特征进行编码。

图1(a)由于三维点和二维图像之间的差异,维数不匹配的特征难以高效融合和校准,导致集成性能不佳。(b)作者采用的统一三维表示可以轻松实现细粒度融合,同时保持语义相邻性。

5add5e689b4f2ad8512ec7447135c404.jpeg

尽管先前的方法取得了令人印象深刻的改进,但它们存在两个主要问题。首先,许多方法将3D点和2D像素——来自不同维度的特征——结合在一起,从而引发了维度不匹配问题,如图1a所示。其次,先前的方法通过逐元素相加或拼接简单融合多模态特征,这是一种粗粒度融合,会降低检测性能。

为了应对上述挑战,作者提出了一种多模态3D检测框架,该框架利用显式统一的3D表示来进行细粒度融合。首先,作者通过提供显式统一的3D表示来克服维度不匹配问题,如图1b所示。具体来说,作者采用一个预训练的深度补全网络来补充2D图像的深度,生成可靠的3D伪点云。其次,作者提出了一种多模态 Backbone 网络,即伪原始卷积(PRConv),以从伪点和原始点中提取特征,同时充分实现各种元素的交互。最后,作者提出了一种交叉注意力自适应融合(CAAF),它通过交叉注意力变体自适应地融合多模态特征,并在模态之间构建关联信息,这是一种更细粒度的融合策略。


H. 提出的方法

FGU3R的整体框架如图2所示。首先,通过深度补全将原始点和图像生成伪点,并通过采样原始点生成关键点。其次,原始点和伪点被 Voxel 化。原始 Voxel 和伪 Voxel 被输入到PRConv中提取细粒度特征。最后,由RPN(区域建议网络)生成的异构Rol特征通过CAAF(详见第二节C部分)融合,并进行最终的回归。

9093d40b45083b55e92ae0e9f96efbb9.jpeg


初步的

要将图像转换为伪点云,需要像素级深度信息。通常,对于单目相机,通过深度估计或深度补全来获得像素级深度。在此,作者采用深度补全方法以获取更可靠的深度信息。给定一个原始点集的帧和RGB图像,其中为点云中的点数,和分别为图像的宽度和高度。作者可以利用LiDAR相对于相机参考系的旋转矩阵和平移矩阵,将投影到图像平面上,从而获取一个稀疏深度图,具体如下:

表示相机内参;表示像素坐标;为深度值。作者定义这种可逆投影操作为。将和输入到深度补全网络中,以获得密集的深度图,具体如下:

最后,作者通过反向投影获得一个伪点帧。

在实践中,这个过程产生了不错的伪点。伪点的定义将在第二部分的第二节中描述。


伪原始卷积(Pseudo-RawConvolution)

伪点与原始点相比,伪点是一种更为密集的表示,其中包含了丰富的语义信息。具体来说,图像中的每个像素都会生成一个相应的伪点,它包括深度、颜色以及像素坐标。PRConvPointnet [29] 是一种提取点特征的原生方法。然而,由于伪点的数量庞大,它将导致通过球 Query 算子 [29] 进行大量计算。为了利用多模态点之间的互补性,作者提出了一种基于点- Voxel 的主干伪原始卷积(PRConv)。对于原始点分支,使用稀疏3D卷积来提取原始 Voxel 特征。与作者的 Baseline  [5] 类似,通过通道变换将原始 Voxel 特征转换为2D鸟瞰图(BEV)特征,并用于获取候选框。对于伪点分支,作者首先将其 Voxel 化以生成伪 Voxel ,并将它们输入到3D稀疏卷积中以获得伪 Voxel 特征。

在此,作者分别获取了异质体的 Voxel 特征。尽管基于 Voxel 的特征效率较高,但不可避免的信息损失降低了细粒度定位的准确性。

另一方面,基于点的特征虽然能够提供细粒度信息,但计算量巨大。因此,作者的目标是有效地结合两种方法的优势。受[5]的启发,作者在共享点云空间中通过最远点采样(FPS)进行关键点采样,以获取低噪声的全局关键点。如图2所示,在关键点周围,通过球 Query [29]或 Voxel  Query [6]对异构特征进行聚合,以实现特征间的交互。最后,第个关键点特征可以表示如下:

 代表  级多模态语义特征,而  则结合了原始点和伪点。 表示多层感知器,而  则分别指最大池化或平均池化。


C. 跨注意力自适应融合

激光雷达和相机的特性导致了一个固有难题——维度不匹配,这很大程度上限制了多模态检测器的性能。尽管之前的方法[19]、[20]、[23]、[24]已经提出直接融合异构特征,但它们未能解决这一关键问题。得益于上述提到的伪点生成,维度可以在三维空间中得到很好的匹配。尽管伪点可以缓解维度不匹配的问题,但在对齐方面仍是一个关键挑战。根据作者的可视化分析,伪点的坐标和数据与关键点不同,这导致它们的对应关系复杂,而不是一对一的对齐。

为了实现关键点和伪关键点的自适应集成,作者通过引入一个交叉注意力变体动态捕捉这种对应关系。具体来说,作者在细化阶段使用CAAF融合RoI的异构特征。给定一对RoI特征,其中是RoI的数量。作者将连接的RoI特征输入到一个全连接层和sigmoid函数中,以产生注意力权重。最后,与加权,得到自适应融合的RoI特征。形式上,CAAF可表示如下:

sigmoid函数、全连接层和拼接操作分别表示为和。此外,还使用了1D卷积进行一些维度调整。幻象如图3所示。

8635daf0589ec1d478b25844ebf1e8ef.jpeg


D损失函数

由于作者的框架是一个两阶段检测器,作者分别针对区域 Proposal 网络(RPN)和细化头设置了两个基本损失函数,即  和 。为了防止梯度被单一模式主导,作者设计了两个辅助监督项,即  和 。它们与  类似,包含边界框回归损失和类别置信度损失。总损失可以表示如下:

在本文中, 和  分别对  和  进行加权(默认情况下,,)。 是作者的深度补充网络损失。


第三章:实验


数据集及实现细节

作者在两个流行的自动驾驶数据集上进行了实验,即KITTI[37]和nuScenes[38]。KITTI包含7481个标注样本,作者按照流行的3D检测模型[5]将其分为训练集(3712个样本)和验证集(3769个样本)。至于nuScenes,这是一个大规模的自动驾驶数据集,包含700个训练场景、150个验证场景和150个测试场景。每个场景大约有200帧。对于KITTI,作者使用平均精度(AP)在验证集上评估结果,该AP是通过在简单、中等和困难难度下计算40个召回率位置得到的[37]。对于nuScenes,作者使用官方指标,即平均平均精度(mAP)和nuScenes检测分数(NDS)[38]来评估不同模型的性能。

作者利用PENet [39]和MVP [35]分别生成KITTI和nuScenes的伪点。虽然深度补全可以以端到端的方式进行处理,但作者采用离线方式,利用伪点云进行处理,这使作者能够快速进行实验。对于PRConv,作者将关键点的数量设置为2048,对于KITTI和nuScenes分别设置为4096。作者使用开源框架OpenPCDet [40]实现作者的方法。所有实验均在8个RTX 3090 GPU上训练,并在单个RTX 3090 GPU上进行推理。为确保公平性,作者遵循 Baseline PV-RCNN [5],按照OpenPCDet [40]中指定的参数设置超参数。具体来说,FGU3R使用Adam优化器,学习率为,并采用单周期学习方案。


B. 主要结果

为了验证作者方法的有效性,作者在nuScenes [38]上将其与几种最先进的方法进行了比较。如表1所示,FGU3R在大多数指标上优于所有先前最先进的方法。特别是,它在测试集上分别以0.8%的mAP和0.5%的NDS优于MVP [35]。此外,作者注意到它在所有类别上都优于MVP,并在难度较高的类别(如C.V.、自行车)上取得了显著提升。如表2所示,FGU3R通过3D+3D融合方式在简单 Level 上提高了基准[5]的2.69% AP3D,这进一步证明了作者的方法在KITTI [37]上的有效性。

896a8386a6d1606e2c5e3530618e999b.jpeg

表1展示了在NUSCENES测试集上,不进行测试时间增强的情况下,与现有方法的性能比较。"C.V."、"MOTOR"、"PED."和"T.C."分别代表建筑车辆、摩托车、行人和交通锥,分别以粗体表示最佳结果。

表2展示了在KITTI val数据集上针对汽车类别的性能比较,与现有方法的比较。“MOD.”和“_”分别表示“适度”和“未提及”。最佳结果以粗体显示。

表3展示了不同模块在KITTI val数据集上的消融实验结果。PRConv和CAAF分别代表伪原始卷积和交叉注意力自适应融合。

6fe11713895b2af01883a61f3c252738.jpeg


C. 消融研究与分析

组件级分析。为了验证每个组件的效率,作者逐步在 Baseline [5]上进行了组件级实验。如表2所示,在实验(a)中,作者仅将伪点应用于 Baseline ,性能提升微乎其微。在实验(b)中,PRConv提取伪点特征并利用两种模态之间的交互,分别在简单、中等和困难场景下实现了1.03%、0.69%和0.61%的性能提升。实验(c)在实验(b)的基础上增加了CAAF模块,该模块能够自适应地融合同构3D RoI特征,在所有任务上都取得了最佳性能。值得注意的是,在AP3D的简单和中等场景下,分别获得了2.39%和2.22%的显著提升,这证明了CAAF的效率。

表四:不同特征成分对PRCONV模块的影响。"MOD."表示适度。

在表4中,作者探讨了将不同多模态特征聚合对PRConv的影响。在实验(a)中,结果显示仅聚合会导致性能显著下降,因为模态交互的浅层次不足以支持更高的性能。在实验(b)、(c)、(d)和(e)中,作者逐步应用高级语义特征,直至达到峰值性能。这表明高级语义特征对性能有显著影响,并证明了PRConv能够提取出信息丰富的多模态特征。

e551a1cb0edf379502612de1a2ff305b.jpeg


四、结论

在这篇论文中,作者提出了一种多模态3D目标检测框架FGU3R,该框架利用由深度补全生成的伪点来处理由点云和图像引起的维度不匹配问题。

通过提出的PRConv,当多模态交互出现时,多模态特征能够被高效且充分地提取。

此外,作者还设计了一个CAAF模块,它通过交叉注意力机制自适应地整合多模态特征。

在KITTI和nuScenes数据集上进行的实验表明,作者的方法显著提高了检测精度。


参考文献


参考

[1]. FGU3R: Fine-Grained Fusion via Unified 3D Representation for Multimodal 3D Object Detection .

① 自动驾驶论文辅导来啦

1f679cba7c8258ea85f9e7f544fb94b6.jpeg

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知端到端自动驾驶世界模型仿真闭环2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型,更有行业动态和岗位发布!欢迎扫描加入

22ff44b589711d861a54933340026c82.png

 ③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、CUDA与TensorRT模型部署大模型与自动驾驶NeRF语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

67444a7cff2ab0a95a5abfbc153404e8.png

网页端官网:www.zdjszx.com

④【自动驾驶之心】全平台矩阵

309b07bc0a0c6ea63fa31d0edd0fc74f.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值