点击下方卡片,关注“自动驾驶之心”公众号
今天自动驾驶之心为大家分享北航最新的工作!FocalAD:面向端到端自动驾驶的局部交互感知运动规划新框架!如果您有相关工作需要分享,请在文末联系我们!
自动驾驶课程学习与技术交流群事宜,也欢迎添加小助理微信AIDriver004做进一步咨询
>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群
论文作者 | Bin Sun等
编辑 | 自动驾驶之心
写在前面 & 笔者的个人理解
在端到端的自动驾驶中,运动预测在自车规划中起着关键作用。然而,现有方法通常依赖于全局聚合的运动特征,忽视了规划决策主要受一小部分局部交互代理影响的事实。未能关注这些关键的局部交互可能会掩盖潜在风险并削弱规划的可靠性。在本研究中,我们提出了FocalAD,一种新的端到端自动驾驶框架,该框架专注于关键的局部邻居,并通过增强局部运动表示来优化规划。具体而言,FocalAD包含两个核心模块:Ego-Local-Agents Interactor(ELAI)和Focal-Local-Agents Loss(FLA Loss)。ELAI执行基于图的自车中心交互表示,捕捉与局部邻居的运动动态,以增强自车规划和代理运动查询。FLA Loss增加了决策关键邻近代理的权重,引导模型优先考虑那些与规划更相关的代理。广泛的实验表明,FocalAD在开环nuScenes数据集和闭环Bench2Drive基准上优于现有的最先进方法。值得注意的是,在注重鲁棒性的Adv-nuScenes数据集上,FocalAD相比DiffusionDrive将平均碰撞率降低了41.9%,相比SparseDrive则降低了15.6%。
论文链接:https://arxiv.org/abs/2506.11419
引言
端到端的自动驾驶已成为一种有前景的范式,它通过完全可微分的统一模型直接将原始传感器输入映射到驾驶动作。在传统的模块化流水线中,感知、预测和规划通常作为独立组件处理,往往导致模块之间误差的累积。相比之下,端到端框架能够实现全局优化,从而提高鲁棒性和可解释性,并带来更简洁的架构。
在此范式中,自车轨迹规划仍然是核心且最具挑战性的任务,生成的轨迹质量严重依赖于对周围交通代理运动的准确建模。这一需求促使了各种不同的框架的产生,它们在结构预测和规划的方式上有所不同。顺序范式首先基于鸟瞰图(BEV)表示预测周围代理的未来运动,然后将这些预测传递给单独的规划模块。相比之下,并行框架则通过利用共享的感知特征同时生成规划和预测轨迹。这种设计允许运动预测和自车规划之间更加紧密的耦合,使得在动态环境中做出更加一致的决策。

尽管这些方法在规划性能上取得了进展,但它们通常依赖于全局聚合的运动特征,缺乏明确的机制来识别对自车决策最为关键的代理,如图1(a)所示。然而,在实际驾驶场景中,自车车辆的规划行为主要受到有限数量附近代理的影响,这些代理的运动对其决策具有直接而即时的影响。这些代理通常与自车车辆进行实时互动,例如合并、让行或交叉,因此构成了规划风险和约束的主要来源。对于端到端框架来说,缺乏交互感知建模会导致忽略重要的局部线索,损害模型在动态交通环境中的有效推理能力。结果,规划输出可能在解释性、可靠性和安全性方面有所下降,特别是在密集或复杂的环境中。
从经验丰富的驾驶员身上获得灵感,驾驶员直觉上会优先考虑附近的代理而非较远的代理。因此,我们认为端到端的自动驾驶方法应明确引导模型关注来自关键局部代理的运动线索,以优化自车轨迹生成。
在这项工作中,我们提出了FocalAD,这是一种端到端的自动驾驶框架,通过增强本地运动感知来加强自车规划,如图1(b)所示。这一改进是通过两个方面实现的:丰富包含交互感知特征的规划和运动查询,并引入焦点损失来引导训练期间对关键邻居运动特征的关注。具体而言,FocalAD集成了两个紧密耦合的模块。Ego-Local-Agents Interactor(ELAI)通过显式建模自车车辆与其局部邻居之间的运动动态,构建以自车为中心的交互表示。它专注于捕捉最相关于自车车辆决策过程的细粒度、局部化的交互。Focal-Local-Agents Loss(FLA Loss)引入了一种焦点监督机制,将模型注意力引向决策关键的代理。通过利用来自有影响力的邻居的运动线索,它在训练中强化高影响的交互,以优先考虑那些显著影响自车车辆未来轨迹的代理。这种表示和监督之间的协同作用提高了运动理解,从而改善了规划的安全性和可解释性。
在nuScenes和Bench2Drive上的实验结果表明,FocalAD优于基线。重要的是,在具有挑战性和复杂性的Adv-nuScenes数据集上,FocalAD将碰撞率相对于DiffusionDrive降低了41.9%,相对于SparseDrive降低了15.6%,突出了其在具有挑战性的驾驶场景中的卓越鲁棒性。这些结果验证了我们以焦点交互为中心的设计的有效性,并强调了交互感知学习在安全和稳健的自主规划中的价值。
相关工作回顾
端到端的自动驾驶取得了快速进展,研究重点逐渐从统一的感知-控制学习转向任务解耦和模块化的端到端设计。基于Transformer的架构通过将多视角图像投射到鸟瞰图(BEV)空间,显著改进了特征表示,从而实现了统一且高效的场景理解。
ThinkTwice强调了解码器在场景预测和风险评估等任务中的被忽视作用,提出了级联解码器设计,但仍然缺乏完整的端到端集成。UniAD通过基于密集BEV表示的规划导向端到端框架实现了感知和规划的联合优化。这种设计促进了各阶段之间的信息流动,从而提高了规划的整体性能。除了基于密集BEV的框架,VAD引入了一种矢量化场景表示方法,将道路边界、车道标记和代理轨迹编码为结构化向量,提高了可解释性和可控性,同时减少了冗余。SparseDrive引入了一种稀疏对称感知架构,仅编码关键代理和地图元素,并采用并行运动规划流水线,在不牺牲性能的情况下减少计算开销。除了架构上的并行性,PPAD通过在每个时间步交错规划和预测引入了时间并行性,实现了双向耦合,考虑了不断演变的代理交互。
为了增强多模态轨迹优化,VADv2引入了一种概率规划机制,将聚类的人类轨迹建模为分布,提高了未来场景的多样性和预测能力。DiffusionDrive在扩散框架内使用锚定高斯先验和两阶段去噪,以提高端到端驾驶中轨迹的准确性和可控性。GenAD通过使用变分自编码器(VAE)构建结构化潜在空间,并采用时间GRU更好地建模交互动态,将轨迹预测和规划制定为一个统一的生成建模任务。在交互感知场景理解的背景下,GraphAD提出了一种统一的基于图的框架,模拟自车车辆、周围代理和地图元素之间的空间关系。这种设计增强了交互推理并改善了决策质量。此外,FASIONAD++受认知双过程理论(“快与慢思维”)的启发,引入了一种双重系统架构,结合了快速端到端规划器和基于视觉语言模型(VLM)的较慢逻辑模块。
尽管先前的工作大幅提升了规划性能,但大多数框架仍依赖全局聚合的运动特征进行轨迹生成。然而,忽略局部交互可能会掩盖关键风险,导致次优或不安全的计划。为了解决这一问题,我们引入了FocalAD,这是一种端到端框架,利用来自关键局部交互的运动信息来优化规划决策。
算法详解
框架概述。与以往依赖全局聚合运动特征的方法不同,我们的 FocalAD 聚焦于一小部分局部代理,这些代理的行为对自车规划具有即时且显著的影响。为了捕捉并强调这些局部交互,FocalAD 建立了一种交互驱动的机制,该机制将特征表示与损失监督相结合。如图 2 所示,FocalAD 包含两个核心模块:(1) Ego-Local-Agents Interactor, ELAI通过图结构显式建模自车中心的交互。它捕捉了自车与其最相关的 Top-k 邻居之间的动态,从而为运动和计划查询生成结构丰富的特征。(2) Focal-Local-Agents Loss, FLA Loss根据邻居的交互得分和索引为其分配焦点权重,并应用交互引导的监督来优化邻居运动特征的学习。这形成了一种交互感知机制,通过将模型注意力与决策关键的运动线索对齐,持续优化运动和规划表示。

这些组件共同增强了 FocalAD 推理局部风险和理解动态驾驶环境的能力,从而提高了轨迹预测精度、规划鲁棒性和整体可解释性。
Ego-Local-Agents Interactor
自车-局部代理交互器(ELAI)旨在显式建模自车与其周围代理之间的局部交互,实现交互感知的自车规划。如图 3 所示,ELAI 包含四个主要步骤:状态提取、图嵌入、交互得分和 K-邻居选择。
状态提取
过程开始时,从检测输出中提取自车和代理的动态状态。每个代理(包括自车)由其运动学和位置特征表示,这些特征作为交互建模的初始输入。
图嵌入
为了构建交互图,我们首先将每个代理的个体运动状态编码为节点特征表示。具体来说,每个代理 的节点特征 计算如下:
其中 分别表示代理 的位置、大小和速度向量, 表示代理 的航向角。为了建模成对交互,

我们定义从每个代理 到自车的有向边,并计算相应的边特征:
其中 和 分别表示代理 相对于自车的相对位置、航向和速度。
交互得分
一个交互 Transformer 被用来计算自车与周围代理之间的成对交互得分,捕捉它们对自车决策的潜在影响。我们首先应用多头注意力机制来聚合局部交互特征,其中自车特征 被视为查询向量,每个代理结合的节点边特征形成键和值向量:
其中 MHCA 表示多头交叉注意, 表示自车中心的交互上下文。此上下文通过捕捉自车与代理之间的相对动态、空间关系和交互强度来编码与规划相关的运动语义。为了量化每个代理对规划的影响,一个多层感知机(MLP)处理其原始运动特征 、边特征 和共享的交互上下文 。它联合输出一个增强的特征表示 及其交互得分 ,表示该代理对自车决策的贡献:
K-邻居选择
通过交互得分识别出的 Top-k 最相关邻居,由集合 索引。相关的关键邻居特征表示为 ,代表关键邻居 的交互感知运动特征。为了纳入局部交互特征,每个代理的全局运动查询 使用来自重要邻居的交互感知修改进行细化,如下所示:
其中 是一个缩放因子, 是通过对得分 应用 softmax 得到的注意力权重。为了加强规划查询中的局部交互表示,自车表示 通过与关键邻居特征 融合进行细化。
这个增强的自车表示捕捉了局部场景中的结构化交互语义,并作为下游计算的基础。使用更新后的 细化全局规划查询 :
其中 是缩放因子。
Focal-Local-Agents Loss
在前面的模块中,我们获得了 Top-k 关键邻居的信息表示。如图 4 所示,提出的焦点-局部代理损失(FLA Loss)引入了一种交互感知的训练策略,将运动监督与邻居特征学习联系起来,引导模型关注与决策相关的代理。

为了获得关键邻居的监督权重,我们对从前面模块获得的交互得分 应用 softmax 操作。这为每个邻居 生成归一化的焦点权重 。这些焦点权重反映了邻居对自车决策的估计影响。每个邻居 对应一个轨迹回归损失 ,根据其索引进行采样,并随后加权焦点系数 。整体 FLA Loss 定义如下:
该公式鼓励模型在训练期间关注决策关键的邻居,使更针对性的运动监督和交互感知特征细化成为可能。为了将焦点指导集成到整体训练目标中,最终的运动损失定义为标准全局运动损失和 FLA Loss 的组合:
与应用均匀权重的标准监督策略不同,FLA Loss 利用基于规划相关性的加权来增强复杂交互设置中的规划可靠性和训练效率。这种交互感知的监督解决了传统范式的这一关键限制,即通常缺乏对决策关键代理的针对性指导。结果,模型将关键邻居的运动与面向规划的特征细化结合起来,更好地捕捉关键交互。
实验
数据集与评估指标
nuScenes。对于开环评估,我们在 nuScenes 数据集上进行了广泛的实验,该数据集包含 1,000 个 20 秒的驾驶场景,并以 2 Hz 的频率进行标注。它提供了丰富的多模态传感器数据,包括每个关键帧的六个相机视角、3D 物体检测标签和高精度语义地图。
Bench2Drive。闭环评估是在 Bench2Drive上进行的,这是一个基于 CARLA 模拟器在 CARLA Leaderboard 2.0 协议下构建的大规模基准测试平台。它包含了超过 200 万帧,涵盖 44 种交互场景和 23 种天气条件,允许在复杂环境中对端到端规划进行真实且细粒度的评估。我们使用官方提供的 220 条路线进行评估。
Adv-nuSc。除了常规的开环和闭环评估外,我们还在 Adv-nuSc 数据集上进一步评估了模型的鲁棒性,该数据集是使用 Challenger 框架构建的。这个扩展的数据集基于 nuScenes 构建,专门设计用于揭示复杂交通条件下规划中的脆弱性。Challenger 框架生成了一系列激进的驾驶场景,例如突然切入、急转弯、尾随和盲区侵入,并将这些场景渲染成带有 3D 注释的逼真多视角视频。Adv-nuSc 包含 156 个安全关键场景(共 6,115 个样本),每个场景都旨在模拟高风险交互,以考验自动驾驶系统的决策能力。
规划评估指标。对于规划评估,我们采用了两个常用的指标:L2 位移误差 (L2) 和碰撞率,两者均按照 SparseDrive中定义的协议计算,以确保与之前工作的可比性。
实现细节
为了捕捉自车周围的动态和静态实例,我们采用了一个基于 SparseDrive的稀疏感知模块。多视角图像由 ResNet-50骨干网络处理,输入图像大小为 256×704。提取的特征在每个时间步被聚合为交通代理和地图元素的实例级表示。对于交互建模,默认情况下选择的 Top-k 最相关邻居数量设置为 5,除非另有说明。为了评估鲁棒性,我们的模型在标准 nuScenes 训练集上按照常规实践进行训练,然后分别在对抗性的 Adv-nuSc 数据集上进行评估,以测试其在挑战性条件下的性能。
主要结果
nuScenes 结果。如表 1(a) 所示,FocalAD 在所有指标上均取得了最佳的整体运动预测性能,将 minADE、minFDE 和 MR 分别降低至 0.61m、0.95m 和 0.134。此外,FocalAD 达到了最高的 EPA 值 0.494,优于所有强基线方法。这些结果突出了我们局部交互建模的有效性,使得能够更准确和自信地进行多智能体轨迹预测。表 1(b) 进一步显示,FocalAD 实现了最低的平均规划误差 0.60m,以及极低的平均碰撞率 0.09%,展示了与最佳基线相当的性能。值得注意的是,FocalAD 在早期规划阶段表现出色,在 1s 和 2s 时达到了最低的 L2 误差,并完全消除了 1s 时的碰撞。尽管其 3s 性能在一定程度上略逊于 SparseDrive 和 DiffusionDrive,但仍具有竞争力。这些结果表明,FocalAD 显著提高了局部交互场景中的规划性能和安全性,特别是在短期决策任务中。

Bench2Drive 结果。在多能力基准测试(表 2)中,FocalAD 在所有五个关键驾驶任务上均优于 UniAD-Base、VAD 和 SparseDrive,达到了最高的平均能力得分 20.53%。它在合并、超车、让行和交通标志识别任务中始终排名第一,在紧急制动任务中排名第二。在基于指标的评估(表 3)中,FocalAD 实现了最佳整体性能,开环 L2 误差最低(0.85),驾驶评分最高(45.77),成功率(17.30%)和效率(174.01)。相比 SparseDrive,FocalAD 将驾驶评分提高了 +1.23,成功率提高了 +0.59%,L2 误差降低了 0.02m。这些结果突出了建模局部交互对于提高规划性能的重要性。

鲁棒性分析
尽管大规模数据集如 nuScenes、NAVSIM和 Bench2Drive已经推动了自动驾驶系统在各种场景中的评估取得重大进展,但它们主要由自然交通流组成。因此,它们缺乏对罕见但至关重要的交互的覆盖,这对规划和决策提出了显著挑战。这一局限性阻碍了在高风险或复杂驾驶场景下对模型鲁棒性的系统评估。为了解决这一问题,我们在 Adv-nuSc 数据集上进行了额外的评估。我们将模型在原始 nuScenes 验证集和 Adv-nuSc 数据集上的性能进行比较,以评估我们的方法在面对激进、意外或高度互动的驾驶行为时保持规划可靠性的能力。
表 4 比较了不同方法在 Adv-nuSc† 数据集上的运动预测性能,基于官方发布的检查点。FocalAD 在所有评估指标上均优于 SparseDrive 和 DiffusionDrive,展示了更高的准确性、更低的遗漏率和更好的终点对齐。表 5 的实验结果表明,FocalAD 在复杂或具有挑战性的交通场景中表现出优越的规划性能,与 DiffusionDrive 相比,碰撞率降低了 41.9%。具体而言,FocalAD 的平均碰撞率从 nuScenes 上的 0.09% 上升到 Adv-nuSc 上的 0.97%,这是所有评估方法中最低的。相比之下,最先进的基线方法如 SparseDrive 和 DiffusionDrive 表现出更显著的退化,平均碰撞率分别从 0.10% 上升到 1.03% 和 0.09% 上升到 1.67%。VAD 的上升幅度最大,从 0.26% 上升到 7.05%,而 UniAD 则从 0.63% 上升到 3.95%。这些增加的更直观比较如图 5 所示。值得注意的是,FocalAD 从 nuScenes 到 Adv-nuSc 的碰撞率增加因子最小,仅为 10.8 倍,进一步证明了其在挑战性交通场景中的鲁棒性。
这些结果证实了 FocalAD 不仅在标准条件下保持了强大的规划性能,而且在安全关键场景中也表现出显著更好的泛化能力,突出了其在动态城市环境中的卓越鲁棒性。
消融研究

为了评估每个提出组件的贡献,我们在 nuScenes 和 Adv-nuSc 验证集上进行了消融研究,结果如表 6 所示。
nuScenes 验证集。我们首先评估了 ELAI 模块的影响。当单独启用 ELAI(不使用 FLA Loss)时,模型在规划准确性和安全性方面均一致地优于基线,将平均 L2 误差降低至 0.62m,平均碰撞率降低至 0.12%。这一结果突出了显式建模与局部代理的自车中心交互的价值。引入 FLA Loss 后,性能进一步提升,尤其是在安全性方面。当 Top-k=5 时,碰撞率降至 0.09%,平均 L2 误差降至 0.60m。这表明 FLA Loss 有效地引导模型关注决策关键的邻居,通过交互感知监督增强了运动和规划表示。为进一步验证此配置,我们尝试了不同的 Top-k 值,发现 Top-k=5 始终提供最佳的整体性能。
Adv-nuSc 验证集。在涉及更多复杂和风险场景的 Adv-nuSc 数据集上观察到了类似的趋势。ELAI 和 FLA Loss 结合使用 Top-k=5 时实现了最低的平均碰撞率(0.97%),优于所有其他变体。Adv-nuSc 上更大的性能差距进一步突出了各组件在挑战性条件下的更强贡献,提供了更有说服力的证据,确认了我们方法的鲁棒性和泛化能力。

定性分析
为了更好地理解 SparseDrive 和我们提出的 FocalAD 模型之间的行为差异,我们在 Adv-nuScenes 数据集的代表性场景中进行了定性分析。在图 6(a) 中,SparseDrive 未能捕捉局部代理交互,忽视了环境中的潜在风险。相比之下,FocalAD 准确地建模了附近的代理,为规划提供了更广泛的风险意识。在图 6(b) 中,一辆邻近的公交车在一个交叉口开始右转。SparseDrive 未能让行,生成了一条冲突的轨迹,而 FocalAD 成功预判了公交车的意图并相应地调整了计划。在图 6(c) 中,一辆邻近车辆突然切入。SparseDrive 维持了原有的路径,面临碰撞风险,而 FocalAD 迅速识别了这一动作并调整了轨迹以确保安全。这些对比表明,FocalAD 通过显式建模局部代理交互,提高了规划的安全性和可解释性。

结论
本文提出了 FocalAD,这是一种通过显式建模关键局部运动交互来增强规划的端到端自动驾驶框架。与依赖全局聚合特征的先前方法不同,FocalAD 通过自车-局部代理交互器(ELAI)利用以自车为中心的交互表示,并通过焦点-局部代理损失(FLA Loss)引入交互感知训练机制。在开环 nuScenes 数据集和闭环 Bench2Drive 基准上的大量实验表明,FocalAD 在规划准确性和安全性方面优于最先进的方法。此外,在更具挑战性的对抗性 Adv-nuScenes 数据集上,FocalAD 在高风险交互场景中表现出强大的鲁棒性,突出了关注决策关键的局部代理的有效性。未来的工作将探索生成式规划框架和轨迹优化策略,以进一步提高轨迹多样性并增强规划安全性。
参考
[1] FocalAD Local Motion Planning for End-to-End Autonomous Driving
自动驾驶之心
论文辅导来啦
知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。
独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com