作者 | AI 驾驶员 编辑 | 智驾实验室
点击下方卡片,关注“自动驾驶之心”公众号
>>点击进入→自动驾驶之心『3D目标检测』技术交流群
本文只做学术分享,如有侵权,联系删文
精确且鲁棒的3D目标检测对于自动驾驶至关重要,融合来自激光雷达和摄像头等传感器的数据可以增强检测精度。然而,传感器故障,如数据损坏或断开连接,可能会降低性能,现有的融合模型在某一模态失效时往往难以保持可靠性。
为此,作者提出了ReliFusion,这是一种新型的在鸟瞰视图(BEV)空间中运行的激光雷达-摄像头融合框架。ReliFusion集成了三个关键组件:时空特征聚合(STFA)模块,它能够捕捉帧之间的依赖关系,从而稳定预测;
可靠性模块,它为每种模态在挑战性条件下分配置信度分数,以量化其可靠性;以及置信度加权互信息交叉注意力(CW-MCA)模块,该模块根据这些置信度分数动态平衡激光雷达和摄像头模态的信息。
在nuScenes数据集上的实验表明,ReliFusion在具有有限激光雷达视场和严重传感器故障的场景中,显著优于最先进的方法,实现了卓越的鲁棒性和准确性。
图1:ReliFusion方法与先前方法的对比说明。(a)传统方法依赖于固定的融合机制,在传感器故障时表现不佳。(b)ReliFusion引入了一个可靠性模块,包含对比和置信度模块,为激光雷达(C_LiDAR)和摄像头(C_Camera)分配置信度分数。这些分数能够使融合模块中激光雷达和摄像头贡献的动态平衡,即使在困难条件下也能实现鲁棒且精确的3D目标检测。
1. 引言
随着信息技术的飞速发展,人工智能技术已经渗透到社会生活的各个领域,对经济发展、社会进步和人类生活产生了深远的影响。为了深入探讨人工智能技术的研究现状和发展趋势,本文旨在对人工智能领域的关键问题进行综述,并对未来研究方向提出建议。
请注意,这里仅为示例翻译,具体内容需要根据实际学术论文的上下文进行调整。如果您有特定的引言段落需要翻译,请提供具体文本,我将根据您的要求进行翻译。
在自动驾驶领域,可靠的3D目标检测至关重要,其中激光雷达和摄像头传感器提供了互补的空间和语义数据,这对于精确的环境感知至关重要。虽然激光雷达捕捉详细的3D空间信息,但摄像头提供了丰富的语义细节,使得多模态融合成为实现鲁棒感知的可行方案。尽管如此,许多现有的融合方法对传感器故障敏感;当某一模态出现损坏,如激光雷达遮挡或摄像头遮挡时,它可能会严重降低另一模态的性能,从而损害整体检测的准确性和鲁棒性。
当前融合技术往往高度依赖激光雷达分支以实现精确的3D定位,如使用早期、中期或后期融合策略的激光雷达主导模型[4; 5; 6]所示。然而,这种依赖性存在风险;如果激光雷达数据部分受损,常常会导致检测结果不可靠甚至失败。一些模型试图通过在鸟瞰图(BEV)空间中整合摄像头数据来解决这个问题,其中解耦的特征提取允许每个模态独立处理[7; 8; 9]。
尽管如此,这些方法仍然容易受到单模态故障的影响,因为它们无法根据每个传感器的输入可靠性适当地调整融合权重。
针对现有融合模型在传感器故障下的局限性,作者提出了ReliFusion,这是一种新型的激光雷达-摄像头融合框架,旨在通过动态适应传感器可靠性的变化来增强3D目标检测的鲁棒性。ReliFusion在BEV(鸟瞰图)空间中运行,并集成了三个关键组件。STFA模块首先处理输入数据,捕捉帧间的依赖关系,以稳定预测并提高检测的一致性。随后,可靠性模块利用跨模态对比学习(CMCL)在共享嵌入空间中对激光雷达和摄像头特征进行对齐,区分可靠和损坏的数据对,并生成反映每种模态可靠性的置信度分数。最后,CW-MCA模块利用这些置信度分数动态融合激光雷达和摄像头数据,为更可靠的模态分配更高的权重,并减轻退化输入的影响。
作者的在nuScenes[10]数据集上的实验验证了ReliFusion的有效性,展示了在各种传感器退化场景下检测精度和鲁棒性的显著提升。通过解决传感器可靠性和融合的挑战,ReliFusion建立了一种在自动驾驶中常见挑战条件下进行准确目标检测的稳健方法。
作者的主要贡献可以概括如下:
1.作者开发了一个利用CMCL生成置信分数的可靠性模块,有效地量化了每种模态的可靠性,并区分了损坏和可靠的数据。该模块对于确保自适应和鲁棒的多模态融合至关重要。
作者引入了一个CW-MCA模块,该模块利用可靠性模块中的置信分数来动态平衡激光雷达和相机数据的贡献,即使在退化传感器条件下也能确保稳健的融合。
作者提出了ReliFusion,一个新型的激光雷达-相机融合框架,它集成了这些组件,以动态适应传感器可靠性,在具有挑战性的场景中增强3D目标检测的鲁棒性和准确性。
2. 相关工作
在探讨人工智能领域的研究之前,了解现有研究及其进展对于深入理解和分析新的研究方向至关重要。本节将概述与本文研究紧密相关的工作,包括但不限于以下几方面:
深度学习在图像识别中的应用:近年来,深度学习技术在图像识别领域取得了显著的成果。例如,卷积神经网络(CNN)在多种图像识别任务中表现出色,如人脸识别、目标检测和图像分类。
强化学习在决策系统中的应用:强化学习作为一种重要的机器学习算法,在决策系统和游戏领域得到了广泛应用。研究者们通过强化学习算法实现了智能体在复杂环境中的自主学习和决策能力。
自然语言处理的发展:自然语言处理(NLP)是人工智能领域的一个重要分支。近年来,随着深度学习技术的不断发展,NLP在文本分类、机器翻译和情感分析等方面取得了显著进展。
知识图谱与推理:知识图谱作为一种知识表示方法,在信息检索、推荐系统和问答系统中发挥着重要作用。研究者们利用知识图谱进行推理,以增强智能系统的知识表达和推理能力。
跨学科研究:人工智能领域的研究与多个学科密切相关,如计算机科学、心理学、生物学等。跨学科研究有助于推动人工智能技术的创新和发展。
在后续章节中,作者将详细介绍本文的研究内容,并在相关工作中探讨其创新点和贡献。
2.1S 单模态3D目标检测
单模态3D目标检测方法仅基于激光雷达或摄像头数据,各自具有特定的优势。基于激光雷达的技术利用精确的空间数据生成准确的3D表示。PointNet [11] 首次实现了点云的直接处理,VoxelNet [12] 在此基础上进一步发展,引入了 Voxel 化特征以提高效率和空间细节。
随后,如SECOND [13] 和PV-RCNN [14] 等方法在此基础上进行了扩展,通过增强空间表示和优化特征提取,产生了更可靠的边界框预测。另一方面,仅使用摄像头的方案虽然在深度精度上有限,但提供了语义丰富性,这对于物体分类至关重要。DETR3D [15] 使用Transformer将2D图像特征提升到3D空间,而BEVDepth [16] 通过精细的视角变换增强了深度估计,实现了更好的3D定位。然而,单模态方法本身缺乏多模态融合所能提供的互补见解。
2.2 多模态传感器融合
多模态融合方法将富含空间信息的激光雷达数据与语义信息丰富的摄像头数据相结合,形成一个综合感知模型。基于BEV(Bird's Eye View,鸟瞰图)的融合已成为此类集成的一种常见框架,如BEVFusion [7; 8] 和相关模型 [17; 18] 采用liftplat-shoot(LSS)变换 [19] 来对齐BEV空间中的图像数据,使其能够有效地与激光雷达特征融合。
这种方法使模型能够捕捉空间几何和语义丰富性,创建一个统一的特征空间,从而提高检测性能。CMT [20] 和 MSMD-Fusion [17] 利用注意力机制和分层融合策略来对齐和整合激光雷达与摄像头特征。虽然CMT模型通过 Transformer 进行交互,而MSMD-Fusion采用多尺度融合,但这些方法没有考虑传感器的可靠性,限制了在传感器退化情况下的性能。
2.3 时间融合
时间融合技术通过对多个帧的特征进行聚合,通过捕捉运动和连续性来提升检测性能。BEVDet4D[21]和BEVFormer [22]利用时间BEV表示来在时间上整合信息,增强了对抗暂时遮挡的鲁棒性。例如,BEVDet4D通过逐帧协调BEV特征,而BEVFormer则应用时空 Transformer 来整合跨帧数据,实现了时间上的稳定检测。同样,3D-VID [23]利用点云帧之间的注意力机制来捕捉物体变换,在动态驾驶场景中提供了改进的检测效果。尽管时间融合捕捉了场景连续性,但它并未完全解决单个帧内数据退化的问题。
2.4 激光雷达与摄像头融合的鲁棒性
确保激光雷达-摄像头融合的鲁棒性变得越来越重要,尤其是在处理来自这两种模态的噪声或部分损坏的数据时。TransFusion[24]利用基于 Transformer 的自适应加权,优先考虑可靠的传感器输入,显示出在管理模态特定可靠性方面的潜力。
GAFusion[18]进一步优化了这一方法,利用激光雷达提取的深度信息来引导自适应融合,有选择性地优化摄像头特征,在恶劣条件下增强跨模态交互。SparseFusion[25]通过利用两种模态的稀疏表示来进一步增强鲁棒性,提高效率同时管理挑战场景下的数据质量。尽管这些方法提高了融合的鲁棒性,但它们通常缺乏根据实时传感器可靠性动态调整融合权重的明确机制,使融合过程在不利传感器条件下容易受到可靠性问题的影响。
图2:ReliFusion的整体架构。
ReliFusion通过引入一个可靠性模块来解决现有方法的局限性,该模块根据实时置信度评分动态调整激光雷达和摄像头特征的贡献。这些评分通过CMCL(冲突度量计算)得出,指导CW-MCA模块进行鲁棒的多模态融合。
此外,STFA模块通过利用跨帧依赖性增强检测稳定性,即使在传感器退化的情况下也能保证准确的表现。
3. 可靠融合
作者提出的方法通过一个鲁棒的融合框架整合了激光雷达点云和多视角图像数据,每个组件在端到端集成之前都独立预训练以提高特定的功能。
如图2所示,ReliFusion包含五个关键组件:(1) 激光雷达和多视角图像特征提取,(2) STFA用于时间一致性,(3) 可靠性模块用于可靠性评估,以及(4) CW-MCA用于最终融合。
3.1 多视角图像与激光雷达特征提取
作者的模型输入包括激光雷达点云和同步的多视角图像。激光雷达点云通过一个3D Backbone 网络进行处理,生成空间准确的鸟瞰图(BEV)特征,记作。同时,多视角图像通过一个2D卷积 Backbone 网络处理,为每个视角生成初始图像特征。
为了将图像特征与由激光雷达生成的鸟瞰视图(BEV)特征整合,作者使用提升-投射-射击(LSS)操作[19]将图像特征转换为统一的BEV空间。
该操作在BEV空间中聚合多视角图像数据,使它们能够与激光雷达BEV特征融合。由此得到的BEV转换后的图像特征FCamera-BEV作为后续时间处理和可靠性关注步骤的基础。
3.2 空间-时间特征聚合(STFA)
在动态环境中进行精确的3D目标检测需要一种鲁棒的表现形式,它能够捕捉到每个时间步内的空间关系以及时间步之间的时序依赖。作者引入了STFA模块,该模块依次应用空间注意力和时序注意力机制。
该模块包含了可学习的空间嵌入和时序编码,以确保有效的特征聚合。
空间注意力机制在多视角聚合中的应用
在每一个时间步长 ,通过共享的卷积神经网络(CNN) Backbone 网络提取多视角图像特征 ,其中索引表示视角。这些鸟瞰视图(BEV)特征 被展平并投影到嵌入空间中:
在 为一个可学习的权重矩阵, 为一个偏置向量,而 Flatten 函数将特征图 Reshape 为一个序列的情况下。
为了在同一时间步内建模不同视图之间的关系,作者采用了空间自注意力机制。对于给定的视图 ( Query ),考虑了所有视图 ( Key和Value )的嵌入 ,包括 。注意力权重计算如下:
在何处:
是可学习的投影矩阵。在时间 ,视图 的注意力值由以下公式给出:
最后,将所有视图的空间聚合特征组合成一个单一的时间表示。
这个过程确保每个视图都关注到其他所有视图,有效地结合互补信息,同时保持自我相似性(k=j)。空间自注意力机制减轻了遮挡,增强了聚合特征的空间一致性[26; 27]。
时间注意力机制在跨时间依赖性中的应用
空间聚集的特征集合 (其中 表示时间步数)通过时间注意力机制进行处理,以捕捉时间序列中的依赖关系。时间嵌入被添加以编码序列的顺序:
代表每个时间步 的可学习的时间编码。时序注意力计算跨越所有时间步的关系:
在何处:
对于 以及 是可学习的投影矩阵,聚合的时间特征为:
这一步建立了时间相关性模型,确保了不同时间步长之间的特征能够有效整合。通过捕捉时间动态,时间注意力机制增强了模型处理运动和其他时间相关现象的能力[28; 27]。
基于层归一化进行细化
每种注意力机制之后都跟随层归一化和残差连接,以稳定训练过程[27]。
MLP是指具有GELU激活函数的两层 FFN [29]。这一细化步骤确保了聚合特征的一致性,为下游融合做好准备。STFA模块的输出作为时空一致的特征表示,将与其余的激光雷达特征进行融合。
3.3 可靠性模块
时空一致性的BEV特征从STFA模块输出,并结合激光雷达特征,输入到可靠性模块。该模块利用CMCL(连续多尺度一致性学习)对激光雷达和相机数据进行特征对齐,并评估其可靠性。CMCL分为两个阶段:特征对齐和可靠性评分。
在特征对齐过程中,CMCL通过多层感知器(MLPs)将激光雷达和图像特征嵌入到共享嵌入空间(zLiDAR和ZCamera-BEv)中。鼓励正对(未改变的数据)在嵌入空间中靠近,而负对(损坏的数据)被推远。这一过程通过对比损失函数实现。
其中, 表示嵌入之间的余弦相似度, 是温度参数, 是批量大小。
在第二阶段,CMCL通过分析其嵌入质量为每个模态生成可靠性分数( 和 )。这些分数量化了每个模态特征的置信度,计算方法如下:
在此, 和 是可学习的参数,而 表示 sigmoid 激活函数。这些得分使得在融合过程中能够动态地调整每个模态贡献的权重。
3.4 置信加权互交叉注意力(Confidence-Weighted Mutual Cross-Attention,简称CW-MCA)
CW-MCA模块通过从可靠性模块中获得的置信度分数对和相机-BEv进行最终融合。置信度加权的特征表示计算如下:
最终融合的特征表示计算如下:
通过利用置信度评分,CW-MCA能够动态地适应传感器可靠性,确保在恶劣条件下准确融合并具有鲁棒性能。最后,作者将广泛采用的TransFusion-head [24]集成到作者的框架中,以处理,从而实现物体类别的预测以及关键属性(如物体尺寸、方向和速度)的回归。
congestion
表1:在nuScenes数据集上的评估结果。作者对ReliFusion在测试集上的表现与SOTA(最先进技术)结果进行了比较。L' 和 分别代表激光雷达和摄像头。C.V', Ped', 和 *T.C' 分别代表施工车辆、行人和交通锥。最佳结果以粗体显示。
3.5 端到端微调
在预训练每个模块之后,作者通过端到端微调整个网络以优化目标检测任务。这一阶段使用了结合检测、对比、置信度和时间一致性损失的多元任务损失函数。
在目标检测损失、跨模态特征对齐的对比损失、确保时间一致性的时间损失以及惩罚不准确置信度预测的中,和分别代表各个成本系数,其值分别设为1.0、0.1、0.2和0.05。
4 实验部分
4.1 数据集与度量标准
作者对作者的方法在nuScenes数据集[10]上进行评估,该数据集包括来自六个相机的同步数据,覆盖360度视图,并包含一个激光雷达传感器。该数据集包含跨越十个类别的140万个3D边界框。评估指标包括BEV空间中的平均精度均值(mAP)和nuScenes检测分数(NDS),后者将mAP与平移、缩放和方向等属性相结合。
4.2 实施细节
ReliFusion采用PyTorch和MMDetection3D框架[32]实现。遵循[33]中的方法,使用ConvMixer[34]作为2D Backbone 网络,VoxelNet[12]作为3D Backbone 网络,两者均投影到BEV空间。与CenterPoint[30]一致,LiDAR点云以的尺寸进行 Voxel 化,输入图像调整为像素。
作者的训练过程分为三个阶段。第一阶段包括对对比模块进行预训练,以使用对比损失(温度为0.07)和128的嵌入大小来对齐激光雷达和相机嵌入;对置信度模块进行预训练,通过回归损失分配可靠性分数;以及预训练STFA模块,以确保帧间的时序一致性。在第二阶段,图像流和激光雷达流分别训练15个epoch,以优化各自的 Backbone 网络和特征提取过程。在第三阶段,也是最终阶段,整个模型以16个批大小、初始学习率和Adam优化器(权重衰减)进行5个epoch的全局微调。
4.3 现有技术比较
usion旨在提高在具有挑战性的条件下的鲁棒性,但它也在干净的数据集上展示了优异的性能。如表1所示,ReliFusion实现了70.6%的mAP和73.2%的NDS,超过了现有的SOTA方法,如BEVFusion[7]和TransFusion[24]。
4.4 稳健性实验
针对激光雷达故障的鲁棒性实验
为了评估ReliFusion的韧性,作者进行了模拟各种激光雷达故障的实验。这些测试旨在检验模型在激光雷达输入降低或受损条件下的准确目标检测能力。作者模拟了两种关键的激光雷达故障类型:
有限视野(FOV):激光雷达点被保留在逐渐变窄的角范围内,例如、和,这反映了实际挑战,如遮挡和硬件限制。 目标检测失败:在物体边界框内随机降低点数,降低率为,模拟了如表面反射性差或传感器严重退化的场景。
研究发现,总结于表2中,突出了ReliFusion相对于最先进方法的鲁棒性。对于有限视场(Limited FOV),仅依赖激光雷达(LiDAR)数据的模型,如CenterPoint[30],由于完全依赖LiDAR数据,其性能急剧下降。而像TransFusion[24]这样的非BEV(Bird's Eye View,鸟瞰图)方法,由于严重依赖LiDAR特征进行区域 Proposal 或关键点提取,仅将图像数据作为辅助输入,因此mAP和NDS也出现了显著的下降。尽管基于BEV的方法试图通过融合同一空间域内的数据来最大化利用相机信息,但仅靠相机信息的贡献往往不足以实现鲁棒的结果。
例如,BEVFusion[7]这类模型通过利用相机输入的互补信息来解决这些问题,在各种场景下将mAP评分提高了46.4%、41.5%和50.3%。然而,这些方法并没有完全考虑到每种模态的动态可靠性,特别是在传感器出现故障的情况下。ReliFusion通过确定每种模态的适当贡献,增强了存在传感器故障时的整体鲁棒性。当激光雷达数据不可用时,这种鲁棒性尤为明显,凸显了ReliFusion在这种条件下作为最先进(SOTA)方法的效能。
图3:BEVFusion和ReliFusion在激光雷达故障场景下的定性检测结果。显然,当激光雷达输入不可用时,BEVFusion会遇到困难,而ReliFusion则依赖摄像头进行补偿并检测这些目标。绿色和橙色边框分别代表真阳性检测和GT。
在有限的激光雷达视场(LiDAR FOV)和物体失效场景下,针对TA方法,使用平均精度(mAP)和归一化检测距离(NDS)指标进行评估。
针对摄像头故障的鲁棒性实验
为了评估ReliFusion在相机故障场景下的鲁棒性,作者遵循了文献[9]中的设置。测试了两种故障类型:相机故障,其中前视(F)图像要么完全去除,要么保留;以及物体遮挡,其中目标边界框内的50%图像像素被遮挡以模拟部分遮挡。这些场景模拟了现实世界的挑战,如传感器断开、极端天气条件或物体部分遮挡摄像头视野。
如表3所示,当前端图像缺失时,ReliFusion实现了68.3%的mAP,而在相机故障情况下保留图像时,其mAP为65.9%。在50%遮挡的情况下,其mAP达到了67.8%,优于现有方法,同时性能下降最小。与激光雷达故障相比,相机故障的影响较小,因为融合方法主要依赖于激光雷达,ReliFusion表现出了卓越的鲁棒性,在所有场景下均保持了可靠的性能。
4.5 消融研究
作者对ReliFusion的关键组件进行了消融研究,包括STFA、CW-MCA和可靠性模块。首先,作者评估了STFA模块的有效性及其对最终结果的影响。如表5所示,引入时空注意力显著提升了性能。为了分析其组成部分,作者训练了不包含STFA、仅包含空间注意力以及仅包含时间注意力的模型。
表5的结果显示,在独立使用时,空间注意力比时间注意力提供了更有意义的贡献。这可以归因于空间信息能够捕捉场景丰富的几何和结构特征,这些特征对于目标检测至关重要。另一方面,时间注意力主要依赖于时间相关性,在动态变化较少或时间依赖性较低的场景中可能带来的益处有限。当两者在STFA模块中结合使用时,网络有效地整合了空间和时间线索,利用互补信息实现更优的性能。这使得STFA能够通过有效捕捉静态空间细节和动态时间变化,从而提高模型的鲁棒性和准确性。
表4:在有限的激光雷达视场和物体故障场景下,对ReliFusion组件(STFA、CW-MCA和可靠性模块)的消融研究,报告了mAP和NDS指标。
如表6所示,以LiDAR作为 Query 的方式优于以图像作为 Query ,因为LiDAR提供了更丰富的空间和几何信息,这对于精确物体定位至关重要,而图像数据则更容易受到遮挡和光照变化等挑战的影响。相互交叉注意力(MCA)通过 Query LiDAR和图像两种模态,通过利用两种模态的互补特征,从而在仅依赖单一模态的情况下取得了更好的性能。最后,CW-MCA通过根据每种模态的可靠性动态加权来增强MCA。这种置信权重机制使得模型能够适应不断变化的传感器条件,确保鲁棒的融合,并实现最高检测精度和鲁棒性。
最后,如表4所示,作者消除了ReliFusion的主要模块,包括STFA、CW-MCA和可靠性模块,以评估它们各自的贡献。结果清楚地证明了每个组件的有效性。
STFA的加入通过利用前一帧的时间信息来提高性能,使得模型能够更有效地依赖于图像分支以做出更好的预测。CW-MCA增强了模型动态融合激光雷达和相机信息的能力,利用了两种模态的互补优势。
值得注意的是,随着激光雷达限制的增加,这些模块的影响变得更加明显。例如,当激光雷达完全损坏时,该模型仅使用图像信息就能达到24.6%的mAP(平均精度),与没有这些模块的配置相比,这是一个显著的提升。
参考
[1]. Reliability-Driven LiDAR-Camera Fusion for Robust 3D Object Detection
① 自动驾驶论文辅导来啦
② 国内首个自动驾驶学习社区
『自动驾驶之心知识星球』近4000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎扫描加入

③全网独家视频课程
端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习)
④【自动驾驶之心】全平台矩阵