开闭环双SOTA!北航FocalAD:局部交互感知端到端规划新框架,碰撞率降低超过40%~

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享北航最新的工作!FocalAD:面向端到端自动驾驶的局部交互感知运动规划新框架!如果您有相关工作需要分享,请在文末联系我们!

自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

论文作者 | Bin Sun等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

在端到端的自动驾驶中,运动预测在自车规划中起着关键作用。然而,现有方法通常依赖于全局聚合的运动特征,忽视了规划决策主要受一小部分局部交互代理影响的事实。未能关注这些关键的局部交互可能会掩盖潜在风险并削弱规划的可靠性。在本研究中,我们提出了FocalAD,一种新的端到端自动驾驶框架,该框架专注于关键的局部邻居,并通过增强局部运动表示来优化规划。具体而言,FocalAD包含两个核心模块:Ego-Local-Agents Interactor(ELAI)和Focal-Local-Agents Loss(FLA Loss)。ELAI执行基于图的自车中心交互表示,捕捉与局部邻居的运动动态,以增强自车规划和代理运动查询。FLA Loss增加了决策关键邻近代理的权重,引导模型优先考虑那些与规划更相关的代理。广泛的实验表明,FocalAD在开环nuScenes数据集和闭环Bench2Drive基准上优于现有的最先进方法。值得注意的是,在注重鲁棒性的Adv-nuScenes数据集上,FocalAD相比DiffusionDrive将平均碰撞率降低了41.9%,相比SparseDrive则降低了15.6%。

  • 论文链接:https://arxiv.org/abs/2506.11419

引言

端到端的自动驾驶已成为一种有前景的范式,它通过完全可微分的统一模型直接将原始传感器输入映射到驾驶动作。在传统的模块化流水线中,感知、预测和规划通常作为独立组件处理,往往导致模块之间误差的累积。相比之下,端到端框架能够实现全局优化,从而提高鲁棒性和可解释性,并带来更简洁的架构。

在此范式中,自车轨迹规划仍然是核心且最具挑战性的任务,生成的轨迹质量严重依赖于对周围交通代理运动的准确建模。这一需求促使了各种不同的框架的产生,它们在结构预测和规划的方式上有所不同。顺序范式首先基于鸟瞰图(BEV)表示预测周围代理的未来运动,然后将这些预测传递给单独的规划模块。相比之下,并行框架则通过利用共享的感知特征同时生成规划和预测轨迹。这种设计允许运动预测和自车规划之间更加紧密的耦合,使得在动态环境中做出更加一致的决策。

尽管这些方法在规划性能上取得了进展,但它们通常依赖于全局聚合的运动特征,缺乏明确的机制来识别对自车决策最为关键的代理,如图1(a)所示。然而,在实际驾驶场景中,自车车辆的规划行为主要受到有限数量附近代理的影响,这些代理的运动对其决策具有直接而即时的影响。这些代理通常与自车车辆进行实时互动,例如合并、让行或交叉,因此构成了规划风险和约束的主要来源。对于端到端框架来说,缺乏交互感知建模会导致忽略重要的局部线索,损害模型在动态交通环境中的有效推理能力。结果,规划输出可能在解释性、可靠性和安全性方面有所下降,特别是在密集或复杂的环境中。

从经验丰富的驾驶员身上获得灵感,驾驶员直觉上会优先考虑附近的代理而非较远的代理。因此,我们认为端到端的自动驾驶方法应明确引导模型关注来自关键局部代理的运动线索,以优化自车轨迹生成。

在这项工作中,我们提出了FocalAD,这是一种端到端的自动驾驶框架,通过增强本地运动感知来加强自车规划,如图1(b)所示。这一改进是通过两个方面实现的:丰富包含交互感知特征的规划和运动查询,并引入焦点损失来引导训练期间对关键邻居运动特征的关注。具体而言,FocalAD集成了两个紧密耦合的模块。Ego-Local-Agents Interactor(ELAI)通过显式建模自车车辆与其局部邻居之间的运动动态,构建以自车为中心的交互表示。它专注于捕捉最相关于自车车辆决策过程的细粒度、局部化的交互。Focal-Local-Agents Loss(FLA Loss)引入了一种焦点监督机制,将模型注意力引向决策关键的代理。通过利用来自有影响力的邻居的运动线索,它在训练中强化高影响的交互,以优先考虑那些显著影响自车车辆未来轨迹的代理。这种表示和监督之间的协同作用提高了运动理解,从而改善了规划的安全性和可解释性。

在nuScenes和Bench2Drive上的实验结果表明,FocalAD优于基线。重要的是,在具有挑战性和复杂性的Adv-nuScenes数据集上,FocalAD将碰撞率相对于DiffusionDrive降低了41.9%,相对于SparseDrive降低了15.6%,突出了其在具有挑战性的驾驶场景中的卓越鲁棒性。这些结果验证了我们以焦点交互为中心的设计的有效性,并强调了交互感知学习在安全和稳健的自主规划中的价值。

相关工作回顾

端到端的自动驾驶取得了快速进展,研究重点逐渐从统一的感知-控制学习转向任务解耦和模块化的端到端设计。基于Transformer的架构通过将多视角图像投射到鸟瞰图(BEV)空间,显著改进了特征表示,从而实现了统一且高效的场景理解。

ThinkTwice强调了解码器在场景预测和风险评估等任务中的被忽视作用,提出了级联解码器设计,但仍然缺乏完整的端到端集成。UniAD通过基于密集BEV表示的规划导向端到端框架实现了感知和规划的联合优化。这种设计促进了各阶段之间的信息流动,从而提高了规划的整体性能。除了基于密集BEV的框架,VAD引入了一种矢量化场景表示方法,将道路边界、车道标记和代理轨迹编码为结构化向量,提高了可解释性和可控性,同时减少了冗余。SparseDrive引入了一种稀疏对称感知架构,仅编码关键代理和地图元素,并采用并行运动规划流水线,在不牺牲性能的情况下减少计算开销。除了架构上的并行性,PPAD通过在每个时间步交错规划和预测引入了时间并行性,实现了双向耦合,考虑了不断演变的代理交互。

为了增强多模态轨迹优化,VADv2引入了一种概率规划机制,将聚类的人类轨迹建模为分布,提高了未来场景的多样性和预测能力。DiffusionDrive在扩散框架内使用锚定高斯先验和两阶段去噪,以提高端到端驾驶中轨迹的准确性和可控性。GenAD通过使用变分自编码器(VAE)构建结构化潜在空间,并采用时间GRU更好地建模交互动态,将轨迹预测和规划制定为一个统一的生成建模任务。在交互感知场景理解的背景下,GraphAD提出了一种统一的基于图的框架,模拟自车车辆、周围代理和地图元素之间的空间关系。这种设计增强了交互推理并改善了决策质量。此外,FASIONAD++受认知双过程理论(“快与慢思维”)的启发,引入了一种双重系统架构,结合了快速端到端规划器和基于视觉语言模型(VLM)的较慢逻辑模块。

尽管先前的工作大幅提升了规划性能,但大多数框架仍依赖全局聚合的运动特征进行轨迹生成。然而,忽略局部交互可能会掩盖关键风险,导致次优或不安全的计划。为了解决这一问题,我们引入了FocalAD,这是一种端到端框架,利用来自关键局部交互的运动信息来优化规划决策。

算法详解

框架概述。与以往依赖全局聚合运动特征的方法不同,我们的 FocalAD 聚焦于一小部分局部代理,这些代理的行为对自车规划具有即时且显著的影响。为了捕捉并强调这些局部交互,FocalAD 建立了一种交互驱动的机制,该机制将特征表示与损失监督相结合。如图 2 所示,FocalAD 包含两个核心模块:(1) Ego-Local-Agents Interactor, ELAI通过图结构显式建模自车中心的交互。它捕捉了自车与其最相关的 Top-k 邻居之间的动态,从而为运动和计划查询生成结构丰富的特征。(2) Focal-Local-Agents Loss, FLA Loss根据邻居的交互得分和索引为其分配焦点权重,并应用交互引导的监督来优化邻居运动特征的学习。这形成了一种交互感知机制,通过将模型注意力与决策关键的运动线索对齐,持续优化运动和规划表示。

这些组件共同增强了 FocalAD 推理局部风险和理解动态驾驶环境的能力,从而提高了轨迹预测精度、规划鲁棒性和整体可解释性。

Ego-Local-Agents Interactor

自车-局部代理交互器(ELAI)旨在显式建模自车与其周围代理之间的局部交互,实现交互感知的自车规划。如图 3 所示,ELAI 包含四个主要步骤:状态提取、图嵌入、交互得分和 K-邻居选择。

状态提取

过程开始时,从检测输出中提取自车和代理的动态状态。每个代理(包括自车)由其运动学和位置特征表示,这些特征作为交互建模的初始输入。

图嵌入

为了构建交互图,我们首先将每个代理的个体运动状态编码为节点特征表示。具体来说,每个代理   的节点特征   计算如下:

其中   分别表示代理   的位置、大小和速度向量,  表示代理   的航向角。为了建模成对交互,

我们定义从每个代理   到自车的有向边,并计算相应的边特征:

其中 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值