FlowDrive:一个具备软硬约束的可解释端到端框架(上交&博世)

在BEV空间中引入具有物理可解释性的基于能量的增强信息,助力端到端新SOTA!

这两年的端到端算法基于环视BEV表示实现运动规划。在车辆运动规划过程中,自动驾驶需同时考虑两类约束:一类是由几何占据障碍物(如车辆、行人)带来的硬约束,另一类是无明确几何形态、基于规则的软语义约束(如车道边界、交通先验知识)。然而现有端到端框架通常依赖以隐式方式学习的BEV特征,缺乏对“风险”和“导向先验”的显式建模,难以实现安全且可解释的规划。

为解决这一问题,上交、博世中国、清华AIR和上海大学的团队共同提出FlowDrive——其核心是在BEV空间中引入具有物理可解释性的基于能量的流场(包括风险势场与车道吸引力场),将语义先验和安全线索编码至BEV空间中。这些流感知特征能够实现锚定轨迹的自适应优化,并为轨迹生成提供可解释的导向。此外,FlowDrive通过带有特征级门控的条件扩散规划器,将运动意图预测与轨迹去噪解耦,有效缓解了任务间干扰,提升了多模态多样性。

在NAVSIM v2基准数据集上的实验表明,FlowDrive实现了当前最优性能,Extended Predictive Driver Model Score, EPDMS达到86.3,在安全性和规划质量两方面均超越了此前的基准方法。

  • 论文链接:https://arxiv.org/abs/2509.14303

  • 主页链接:https://astrixdrive.github.io/FlowDrive.github.io/

一、引言

近年来,端到端自动驾驶因其具备简化传统模块化流水线、利用大规模数据联合学习感知、预测与规划任务的潜力,受到了越来越多的关注。其中一个主流研究方向是利用多视图相机输入生成BEV表示——这种表示形式具有空间结构化、格式紧凑的特点,能够为下游规划任务提供便利。在城市驾驶场景中,这类基于BEV的方法已展现出良好性能:它们能够实现场景全局理解,涵盖道路布局、周边车辆及其他动态智能体(agent)等信息。

尽管BEV表示能够提供环境的结构化空间视图,但其往往缺乏对“风险敏感语义”或“基于规则的规划先验”的显式建模——例如障碍物诱导排斥力、车道中心导向等,而这些信息对于安全且可解释的规划至关重要。相反,现有方法通常在端到端训练过程中,将这些关键因素隐式嵌入模型,这极大限制了模型对“长期安全性”的推理能力,也难以让模型有信心地做出高层规划决策。

此外现有端到端规划框架常采用一体化架构,将“高层运动意图预测”与“低层轨迹生成”紧密耦合。这种耦合会导致两类任务间出现梯度冲突特征干扰:例如,高层意图预测需要语义抽象能力,而精确的轨迹生成则依赖细粒度空间精度——这两种需求在单一特征空间内难以联合优化。这种限制会降低任务专业化程度,削弱模型对多样或长尾场景的泛化能力。

为应对上述挑战,本文提出FlowDrive——一种全新的端到端驾驶框架,其核心是在BEV空间中引入具有物理可解释性的基于能量的导向信息,以增强BEV表示的有效性。与完全依赖隐式特征学习的传统方法不同,FlowDrive引入了两个可学习的基于能量的场:风险势场车道吸引力场。这两个场通过连续的空间能量分布,分别对“避障”和“车道级导向”进行建模:其中,能量值越高的区域对应风险越高(如障碍物、动态智能体所在区域),能量值越低的区域则对应与目标对齐或符合规则的区域(如车道中心)。这些场的梯度能够指示能量下降的局部方向,为轨迹规划提供结构化、风险感知的导向——这种导向能力超越了纯学习特征的局限,进一步提升了语义对齐度与空间精度。

基于这些能量场,本文设计了流感知锚定轨迹优化模块:通过将初始锚定轨迹与能量极小值区域对齐,实现对初始轨迹的调整。该过程能够优化轨迹初始化效果,使规划器能够对场景几何结构和驾驶语义做出动态响应。为进一步将流场的结构化导向融入轨迹规划,本文将流场特征与BEV特征共同作为条件输入,引入基于扩散的规划器中。

与传统方法在单一解码器中联合优化运动意图与轨迹预测不同,本文提出任务解耦设计,明确将高层意图推理与低层轨迹去噪分离。这种解耦形式使每个子任务能够专注于自身独特目标,同时在整个扩散过程中利用流场提供的共享结构上下文。

综上,本文的主要贡献如下:

  1. 提出基于能量的流场表示,用于显式编码几何诱导约束与基于规则的语义。这些场作为结构化、可解释的规划先验,引导规划器避开高风险区域,朝向语义合理、目标导向的区域;

  2. 引入流感知锚定轨迹优化模块,通过将粗粒度锚定轨迹与流场的梯度结构对齐,提升生成轨迹的空间有效性与意图一致性;

  3. 设计任务解耦的扩散规划器,分离意图预测与轨迹生成过程,支持针对性监督与流场条件解码,最终生成多样且目标一致的轨迹。

二、相关工作回顾

端到端自动驾驶

端到端自动驾驶已成为一种极具潜力的范式,它可直接将原始传感器输入映射为规划决策,无需依赖传统的模块化流水线。近年来的研究进展推出了一系列基于BEV的框架,这类框架能将传感器输入转换为BEV表示,为下游轨迹规划任务提供支持。根据轨迹生成的核心机制,这些基于BEV的方法通常可分为基于回归的方法(图1a)和基于生成的方法(图1b)两类。

基于回归的方法通过直接从BEV特征回归到固定格式的轨迹,实现对未来路径点或控制信号的预测。例如,UniAD利用可学习的任务查询提取BEV特征以用于多任务学习,将检测、预测与规划整合到统一框架中;VAD将场景语义压缩为紧凑的向量化表示,以提升规划效率;而VADv2则转向多模态规划,通过评分与采样从大规模离散锚定轨迹集中筛选合适轨迹。Hydra-MDP与Hydra-MDP++进一步优化了该范式,引入轨迹聚类与基于规则的评分器,在效率、多样性与安全性之间实现平衡。

与之相对,基于生成的方法旨在通过生成式框架(如变分自编码器(VAE)、扩散模型或流匹配)对未来轨迹的分布进行建模。这类方法能基于场景上下文与驾驶意图生成多样的轨迹样本。例如,GenAD采用VAE架构,通过 latent 变量对轨迹分布进行编码,并利用门控循环单元(GRU)解码器生成路径;部分基于扩散的方法将去噪扩散过程应用于锚定轨迹或真实轨迹,以生成高质量轨迹;GoalFlow则将轨迹生成转化为基于目标点的流匹配问题,确保轨迹的结构完整性与意图一致性。

规划中的流场表示

在机器人领域与人群仿真领域,流场表示已被广泛用于建模空间影响、导航导向与动态交互。早期研究采用势场与向量场来表示障碍物排斥力与目标吸引力,为系统提供可解释的反应式导向信号。在自动驾驶领域,流场主要应用于基于规则的路径规划算法。

尽管流场具有潜在价值,但其尚未被有效整合到端到端自动驾驶框架中。为此,本文通过将基于能量的流场嵌入BEV空间,填补了这一空白。这些流场作为密集的、具有物理可解释性的先验,能为规划器提供结构化的安全感知导向,帮助规划器更好地理解场景拓扑、动态风险与行为意图。

多任务学习

多任务学习(MTL)已在计算机视觉、自然语言处理与推荐系统等领域广泛应用,其核心是利用共享归纳偏置,并通过参数共享减少过拟合。例如,MoE与MMoE通过对专家池(expert pool)进行门控(gating),实现条件计算与任务感知共享;SNR采用任务条件稀疏路由,减少跨任务干扰;PLE则将共享专家与任务特定专家堆叠,结合门控跨任务融合,实现可控的信息共享与解耦的任务特征。

与现有在最终捕获特征上进行联合优化的方法不同,本文将多阶段解码器特征与门控选择性共享相结合,实现运动模式预测与轨迹生成的解耦。该设计能充分利用跨层语义与细粒度空间线索,减少梯度干扰,提升意图预测准确性与轨迹可行性。

三、FlowDrive详解

本节详细介绍FlowDrive的具体架构(如图3所示)。FlowDrive的流程如下:首先通过感知模块从多模态传感器输入中提取BEV特征;随后利用这些BEV特征学习密集的、基于能量的流场表示,在BEV空间中显式编码风险与车道先验;基于这些流场特征,锚定轨迹优化模块通过迭代调整锚定点,使其与安全且目标导向的区域对齐;接着,FlowDrive将特征级运动解耦与条件扩散生成器相结合,生成多样且可行的轨迹分布;最后本节将详细说明整体训练目标。

预备知识

任务定义

本文研究端到端自动驾驶运动规划问题。给定传感器观测数据(如多视图相机图像或激光雷达数据),目标是为自车生成未来 步内安全且可行的轨迹,记为:

其中, 表示自车在时刻 的预测2D位置与航向角。预测轨迹需符合道路拓扑结构、避开静态与动态障碍物,并体现合理的高层驾驶行为(如转向、让行或直行)。

感知模块

感知模块是FlowDrive的前端,负责将原始传感器观测数据转换为紧凑且语义丰富的BEV表示。本文采用TransFuser的架构,该架构通过基于Transformer的注意力机制有效融合图像与激光雷达模态。具体而言,输入包括三个视角的前向相机图像与激光雷达点云,每种模态均通过独立的骨干网络(backbone network)进行编码;随后将编码后的特征投影到统一的 latent 空间,并通过多阶段Transformer进行融合,实现层级化跨模态交互与空间对齐;最终,融合后的表示被转换为俯视视角的BEV特征图 ,作为后续模块的统一输入。

值得注意的是,本文引入两个辅助任务——语义地图分割与目标检测,用于监督BEV特征的学习过程,促使网络捕获细粒度的静态拓扑结构与动态智能体表示。

流场学习

为在规划过程中注入显式的安全与语义先验,本文在BEV空间中引入基于能量的流场表示(如图2所示)。这些流场编码了密集的、具有物理可解释性的空间梯度,为下游锚定轨迹优化与轨迹规划提供细粒度导向。本文定义两个互补的能量场:

  • 风险势场 :为不安全区域(如动态障碍物)分配更高能量,推动自车产生远离这些区域的排斥运动。其计算公式为:

    其中, 表示智能体 的位置, 为风险权重, 控制空间影响范围。

  • 车道吸引力场 :为可行驶区域与目标导向区域分配更低能量,引导自车向安全且可行的路径产生吸引运动。其计算公式为:

    其中, 表示点 到最近车道中心线的横向距离,

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值