端到端SOTA!中山大学GaussianFusion:高斯建模让自动驾驶感知-规划一体化效率飙升~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享中山大学最新的工作!GaussianFusion:基于高斯表征的多传感器融合端到端自动驾驶框架!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

论文作者 | Shuai Liu等

等编辑 | 自动驾驶之心

中山大学团队的工作,开闭环的效果都还不错。利用高斯表征和扩散端到端的方法结合在一起,最终效果比DiffusionDrive要好一些。

写在前面 & 笔者的个人理解

多传感器融合对于提高端到端自动驾驶系统的性能和鲁棒性至关重要。现有方法主要采用基于注意力的扁平化融合或通过几何变换的鸟瞰图融合。然而,这些方法通常在可解释性上有限或计算开销较大。本文中,我们介绍了GaussianFusion,这是一种基于高斯的端到端自动驾驶多传感器融合框架。我们的方法使用直观紧凑的高斯表示作为中间载体,以聚合来自不同传感器的信息。具体来说,我们在驾驶场景中均匀初始化一组二维高斯分布,每个高斯分布由物理属性参数化,并配备显性和隐性特征。这些高斯分布通过集成多模态特征逐步优化。显性特征捕捉交通场景的丰富语义和空间信息,而隐性特征则提供对轨迹规划有益的补充线索。为了充分利用高斯分布中的丰富空间和语义信息,我们设计了一个级联规划头,通过与高斯分布的交互迭代地精炼轨迹预测。在NAVSIM和Bench2Drive基准上的广泛实验表明了所提出的GaussianFusion框架的有效性和鲁棒性。

  • 论文链接:https://arxiv.org/abs/2506.00034

  • 开源代码:https://github.com/Say2L/GaussianFusion

引言

端到端(E2E)自动驾驶因其通过深度学习直接将传感器输入映射为驾驶动作的潜力而受到越来越多的关注。这一范式减少了系统复杂性,并实现了跨任务的联合优化。然而,仅依赖单一传感器往往限制了系统处理多样化和挑战性驾驶场景的能力。为了解决这一局限性,多传感器融合变得至关重要,因为它允许模型利用来自不同传感器(如摄像头、激光雷达和雷达)的互补信息。这种集成增强了感知的可靠性,并为学习稳健的驾驶策略提供了更丰富的输入。

在端到端自动驾驶中现有的多模态融合策略大致可分为两类:扁平化融合和鸟瞰图(BEV)融合。扁平化融合方法通常将传感器特征(如图像和激光雷达点云特征)压缩到一个共享的潜在空间中,在该空间中使用注意力机制进行特征交互,如图 1(a) 所示。这些方法因其灵活性和效率而具有吸引力,通常只需要最小的几何校准。然而,由于缺乏明确的空间定位在三维空间中的解释性有限,使得它们在需要精确空间推理的场景中效果不佳。

相比之下,BEV 融合方法将多模态特征投影到一个通用的 BEV 坐标系中,利用几何先验对齐来自不同传感器的数据,如图 1(b) 所示。这促进了结构化的空间理解,并提高了下游感知任务(如三维物体检测和地图构建)的性能。然而,由于 BEV 表示的密集性质,特别是当涉及高分辨率输入或细粒度特征时,BEV 融合会带来显著的计算和内存开销。因此,在复杂的驾驶环境中开发能够在空间感知、效率和可扩展性之间取得平衡的融合框架仍然是一个持续的挑战。

最近,三维高斯分布在基于相机的三维场景表示和重建中获得了关注,因为它们具有物理可解释性、紧凑性和固有的稀疏性。这些特性使它们成为自动驾驶中多传感器融合的有希望的候选者,在这里效率和结构化的空间理解是关键。然而,在这个背景下应用高斯表示引入了几个挑战。首先,由于现有的 E2E 驾驶数据集中缺乏细粒度的三维场景注释,很难有效地监督高斯参数。其次,现有方法主要集中在三维场景表示,留下了其在运动规划任务中的适用性未充分探索。第三,高效地利用高斯表示进行准确的轨迹生成需要仔细的架构设计。解决这些问题对于在 E2E 自动驾驶框架中启用基于高斯的表示至关重要。

考虑到上述创新和考虑因素,我们提出了 GaussianFusion,一种基于高斯的用于 E2E 自动驾驶的多传感器融合框架。我们的方法利用二维高斯来表示交通场景,与三维高斯相比提高了效率。值得注意的是,二维高斯只需要从 BEV 语义图中获得监督,这在 E2E 数据集中广泛可用。为了将融合过程定制到运动规划任务,我们设计了一个双分支融合管道。第一个分支捕获每个高斯的多传感器输入的局部特征,主要用于交通场景重建。第二个分支从相同的输入中聚合全局规划线索,并专门用于运动规划。此外,为了充分利用高斯表示的表征能力,我们引入了一个级联规划模块,该模块通过以级联方式查询高斯表示来精炼锚定轨迹。

我们在面向规划的 NAVSIM 数据集上评估了 GaussianFusion。使用与之前方法一致的 ResNet-34 骨干网络,我们的方法达到了 85.0 EPDMS和 88.9 PDMS,显著超越了当前最先进的方法。为了进一步评估我们框架的泛化性和鲁棒性,我们在闭环基准 Bench2Drive上进行了实验,结果一致表明了 GaussianFusion 的有效性。本工作的主要贡献总结如下:

  • 首次将高斯表示引入到用于 E2E 自动驾驶的多传感器融合领域,并提出了一种针对以规划为中心的任务的双分支融合管道。

  • 设计了一个专门适应于高斯表示的级联规划头,该头通过分层高斯查询迭代地精炼轨迹。

  • 在开环 (NAVSIM) 和闭环 (Bench2Drive) 基准上的广泛评估表明了 GaussianFusion 的优越性能和鲁棒性。

算法详解

端到端(E2E)自动驾驶的目标是直接从原始传感器输入中预测自车的未来轨迹。形式上,给定多视角图像  、LiDAR点云   和变换矩阵  ,目标是预测自车轨迹  ,其中   和   分别表示视角数量、图像分辨率、点的数量、时间   处的航路点坐标和规划视野。

GaussianFusion的整体框架如图2所示。它可分为三个阶段:(1) 高斯初始化;(2) 高斯编码器:来自多传感器的高斯;(3) 高斯解码器:高斯到场景推理。

高斯初始化

由于自动驾驶车辆主要在平面上运行,因此二维高斯足以建模交通场景。具体来说,我们在驾驶场景中随机生成一组二维高斯分布  ,其中   表示预定义的高斯数量。每个高斯由物理属性和隐藏特征共同表征。物理属性包括均值  、尺度  、旋转   和语义logits 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值