轻舟智航最新GuideFlow：端到端轨迹规划新方案

转载于 2025-11-30 10:00:42 发布 · 7 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247686984&idx=3&sn=76c3d4b8ec37c33004b0f409b8ee9706&chksm=cf3ef1739cdd41e21b07ef445d2264d525c06046be69652d810126b10dfc34d9531e5d74b142&scene=126&sessionid=0

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Lin Liu等

编辑 | 自动驾驶之心

今年学术界和工业界很大的精力都投入在Action的建模上，也就是自车轨迹的输出。先前的MLP只能输出单模的轨迹，实际使用中无法满足下游不确定性的需求。所以从去年开始，我们看到了生成式的很多算法问世。

经过这一年的发展，生成式的算法进一步收敛到Diffusion和Flow matching两个方向上。自动驾驶之心了解到上半年有不少公司都在尝试将这两种方法落地量产，期间坎坷无需多言。

今天为大家分享的是一篇北交&轻舟智航等团队最新的工作，提出一种基于Constrained Flow Matching的新型规划框架GuideFlow，整体效果还不错。

具体而言，GuideFlow显式建模流匹配过程，该过程本质上可缓解模态坍塌的问题，并能灵活融合多种条件信号的引导。本文的核心贡献在于，将显式约束直接嵌入流匹配生成过程，而非依赖隐式约束编码。关键创新点在于，GuideFlow将流匹配与Energy-Based模型的训练相统一，增强模型自主优化能力，以满足物理约束。其次，GuideFlow将驾驶激进度参数化为生成过程中的控制信号，实现对轨迹风格的精准调控。在主流驾驶基准数据集（Bench2Drive、NuScenes、NavSim和ADV-NuScenes）上的大量实验验证了GuideFlow的有效性。值得注意的是，在NavSim测试集的高难度子集（Navhard）上，GuideFlow取得了当前最优（SOTA）性能，其扩展PMD分数（EPDMS）达到43.0。

论文标题：GuideFlow: Constraint-Guided Flow Matching for Planning in End-to-End Autonomous Driving
论文链接： https://arxiv.org/abs/2511.18729

更多自动驾驶的前沿技术进展、行业方案分析、求职招聘，欢迎加入自动驾驶之心知识星球，一个超过4000的人自驾社区......

一、背景回顾

近年来，端到端自动驾驶（E2E-AD）已成为传统模块化流水线的一种极具吸引力的替代方案。与单独优化感知、预测和规划模块不同，端到端自动驾驶将整个驾驶过程构建为一个可微分的统一系统，能够通过数据进行整体训练。以UniAD为代表的框架便是该方向的典型范例，其将空间感知、在线建图、运动预测和控制决策等功能耦合在一个连贯的架构中。这种联合范式支持跨任务推理，有效减轻了分阶段设计中常见的级联误差问题。其中，规划模块的核心作用是预测可行的、面向目标的轨迹，最终决定车辆的行驶行为。

近年来，端到端自动驾驶规划技术已从单模态轨迹生成向多模态轨迹生成演进，以更好地反映真实驾驶场景中的固有不确定性。在许多场景中，往往存在多种合理的驾驶意图，但单模态端到端自动驾驶规划器仅能输出一条确定性路径，限制了系统的鲁棒性。相比之下，多模态端到端自动驾驶规划方法会预测多条候选轨迹，提供更丰富的意图表达。然而，如图1所示，这些方法大多仍基于模仿学习（IL）进行训练。由于每个驾驶场景仅提供一条真实轨迹（GT），模型学习到的多模态输出往往会向单一主导模式收敛——尽管名义上具备多样性，但最终预测结果高度相似。这种现象被称为模式崩溃。为缓解模式崩溃问题，近期研究探索将生成式建模用于轨迹规划。生成式方法（流匹配和扩散模型）旨在表征可行未来轨迹的完整分布，通过迭代采样自然实现多样化的轨迹假设。尽管生成式方法提升了多模态轨迹预测性能，但采样过程中固有的随机性和高方差，给保证生成轨迹满足严格安全约束带来了根本性挑战。当前方法极少探索在生成过程中融入显式的风格引导和安全引导以确保约束满足，这给系统的可靠部署带来了难题。

为解决上述问题，本文提出GuideFlow框架——一种基于流匹配架构、生成过程受显式监督的规划模型。GuideFlow从随机采样出发，通过多样化的条件信号引导生成过程，从而缓解模式崩溃问题。其核心创新在于将安全约束直接嵌入生成过程的策略：（1）速度场约束（CVF）：采用预定义的、满足约束的速度场，主动修正模型预测的速度场，引导结果满足约束；（2）流状态约束（CF）：对偏离约束的流路径进行修正，使流路径朝向满足约束的生成终点演进；（3）EBM流优化（RFE）：通过统一流匹配架构与能量基模型（EBM），赋予模型在数据流形内自主探索的能力，使其能够“发现”满足约束的结果。本文的贡献如下：

提出一种基于流匹配的多模态轨迹规划器GuideFlow，有效缓解模式崩溃问题。其核心创新在于在流匹配过程中施加显式硬约束，并结合EBM提升轨迹的可行性；
GuideFlow将环境奖励作为条件信号，在推理阶段支持激进驾驶与保守驾驶风格的灵活切换；
在自动驾驶数据集（NuScenes、ADV-NuScenes、NavSim和Bench2Drive）上的大量实验验证了其优异性能。值得注意的是，在NavSim测试集的高难度子集（Navhard）上，GuideFlow取得当前最优结果，EPDMS分数达43.0。

二、预备知识

Flow Policy and Rectified Flow：本文首先将规划问题建模为基于流的轨迹生成问题，该方法通过学习一个向量场，将简单的高斯先验分布映射到目标轨迹分布。设沿概率路径遵循如下常微分方程（ODE）演化：

其中是可学习的向量场。该模型的一种常见实现形式是修正流（Rectified Flow, RF）。修正流在先验分布与目标分布之间构建线性概率路径，即样本满足。在此设定下，流匹配的学习目标定义为：

该目标函数能高效学习朝向数据流形的直线映射。在推理阶段，通过数值积分生成轨迹，且需满足：

这种形式可实现快速稳定的采样，但直线映射路径本质上具有“模式趋同”特性，往往会收敛到主导性的驾驶模式。

能量匹配：近期提出的“能量匹配”（Energy Matching）方法引入能量函数，使流模型能够恢复多个可行模式。其动力学公式的最优条件满足：在数据流形附近，映射项消失（因），此时式(4)可简化为终端分布满足玻尔兹曼形式：

其中，能量权重调度函数控制系统从纯流映射过渡到能量引导的流形优化，具体定义为：

由此，将数据流形塑造为多个低能量“盆地”，每个盆地对应一种独特的可行模式（如“让行”“合流”）。在采样阶段，离散化更新需引入离散调度器：实际上，在$0<t<1$阶段，流项将样本高效映射至轨迹流形；而当$t ≥\tau^{*}$时，能量项激活，引导样本进入不同的低能量模式。这为guideflow优化过程中确保多模态多样性提供了理论基础。<="" p="">

三、GuideFlow算法详解

本文提出的GuideFlow框架如图2所示，其本质是一种基于流的轨迹生成器，可生成可行且安全的未来运动规划。该模型包含三个核心模块：(i) 感知条件速度场生成器；(ii) 无分类器引导（在采样阶段注入驾驶意图与风格）；(iii) 安全约束采样过程（通过截断与基于能量的动力学在数据流形附近运行，具体包括“速度场约束（CVF）”“流状态约束（CF）”和“EBM流优化（RFE）”三种策略）。

感知条件流生成器

如图2所示，GuideFlow首先解码理想速度场，并采样可行的未来轨迹，具体流程如下：

感知到场景令牌的映射：给定多视角图像，先提取图像特征，并将其提升为鸟瞰图（BEV）表示。感知模块通过查询该BEV特征，生成两组结构化令牌：(1) 智能体令牌（编码动态智能体间的交互关系）；(2) 地图令牌（嵌入道路与车道拓扑结构）。

流状态与条件建模：将时刻的轨迹表示为流状态（见式(2)），其中为预测时域。为使速度场适应场景条件，需将映射为latent表示（为正弦时序嵌入），随后执行序列交叉注意力操作：

最终，通过解码速度场采样未来驾驶轨迹：

Classifier-free Intent与奖励引导

GuideFlow通过将轨迹生成过程与多个表达意图和风格的动态元素关联，实现高层驾驶行为建模。具体而言，模型考虑四种动态条件信号：(1) 规划锚点；(2) 目标点；(3) 驾驶指令；(4) 塑造轨迹偏好的奖励（详见4.4节）。需注意：驾驶引导信号、、在语义上存在重叠，因此不会同时使用。

实现细节:

规划锚点构建：通过对训练集执行最远点采样，构建规模为的轨迹词汇表。训练阶段，选择与真实轨迹（GT）最接近的规划锚点作为；采样阶段，GuideFlow通过对中每个锚点施加条件，生成条轨迹，从而获得多样化的候选运动。
目标点生成：目标点由选定的规划锚点推导得出，训练与推理阶段均采用与规划锚点一致的处理策略。
驾驶指令编码：将驾驶指令编码为独热向量（one-hot vector）以进行后续处理。

Classifier-free Intent引导训练:采用无分类器引导训练框架，对条件输入以概率进行掩码（记为）：

其中表示交叉注意力融合模块。随后预测条件速度场：。在采样阶段，通过引入引导尺度，控制条件信号对运动的影响强度。

约束生成

尽管感知条件与意图引导共同实现了多样化且目标一致的运动假设，但二者本身无法保证轨迹的物理可行性与安全性。结合式(3)和式(8)的采样过程可知，每条轨迹的更新同时依赖于：(1) 速度场；(2) 前一流状态；(3) 优化阶段（）的能量项。基于这一洞察，本文提出以下三种互补约束机制（如图3所示）。

速度场约束（CVF）:首先，引导预测运动方向与满足约束的参考方向对齐。根据物理或安全约束，从轨迹锚点集中手动选择可行轨迹，或采用预训练评分器（如GTRS）选择约束满足概率最高的轨迹。该轨迹对应的速度场为（即与间的线性速度场）。尽管这种方向设定可能并非最优，但能确保流终点满足约束。为平衡约束合规性与运动合理性，构建修正后速度场：

其中设置为0.1，（为简化表述）。式(14)的核心目标是在最小化对速度大小影响的前提下，调整的方向。相关证明详见附录。

流状态约束（CF）:速度场修正虽能对齐整体运动方向，但在积分过程中，流轨迹仍可能偏离约束流形。设从到的连续流为，根据离散时序将其离散化为序列：

其中设置为100。若生成轨迹无法满足约束，可认为偏离了理想流。一种直接的修正方式是在每个时序步手动调整以满足约束，但这种方法会严重干扰采样过程且效率低下。为此，GuideFlow采用类截断策略：直接用满足约束的锚点替换接近目标真实轨迹的离散变量，并从该点继续采样，即（实际中设置为50）。与DiffusionDrive在训练阶段使用截断策略不同，GuideFlow仅在推理阶段激活该机制，以保留模型在测试时的适应性。这种后期修正可确保轨迹终止于可行区域，同时不破坏已学习的映射动力学。

EBM流优化（RFE）:为进一步将约束执行融入生成过程，本文将其直接嵌入能量图景。基于式(8)，将时的流匹配模型解释为能量基模型（EBM），该模型既鼓励样本收敛到低能量区域，又确保其满足约束。据此，定义能量代理函数：

其中表示式(3)中的采样算子，参考的方法评估约束满足度（如道路合规性、碰撞惩罚）。上述为可行轨迹分配较低能量，为违反约束的轨迹分配较高能量，从而使速度场在训练过程中隐式学习约束感知能力。

遵循EBM训练范式，定义训练目标（表示模型在时生成的终点，为目标真实轨迹）：该目标函数的核心作用是提升违反约束样本的能量，同时降低满足约束样本的能量，从而引导速度场向约束满足概率更高的区域优化。

奖励作为风格条件

为在推理阶段动态调整轨迹激进度，本文基于NavSim数据集引入激进度评分（EP）——定义为单位时间内沿车道中心线行驶的距离，取值范围为[0,1]。该评分针对每条真实轨迹（GT）在线计算，并作为条件输入融入模型。通过调节EP值，可直接控制生成轨迹的激进度：实际中，当推理阶段将EP设置为接近1时，模型会生成更具激进性的驾驶行为。

实验结果分析

实验设置

数据集与评价指标：

开环测试：在NuScenes（简称NuS）和ADV-NuScenes（简称ADV-NuS）两个数据集上对GuideFlow进行评估。其中，NuScenes数据集包含1000个驾驶序列，每个数据样本涵盖6张图像和点云数据，可提供360°视野；本研究仅将图像数据作为模型输入。ADV-NuScenes数据集包含150个物理可行的对抗性驾驶场景，共6115个样本，涵盖多种激进驾驶行为。对于NuS和ADV-NuScenes数据集，研究用碰撞率（Collision Rate） 替代L2距离作为唯一评价指标。
闭环测试：在NavSim和Bench2Drive两个数据集上评估GuideFlow。Bench2Drive是基于CARLA排行榜2.0的端到端自动驾驶闭环评估协议，提供官方训练集（本研究使用基础集的1000个片段，以确保与其他基线模型的公平对比），评估采用官方提供的220条路线。NavSim是基于OpenScene构建的规划基准数据集，整合了多视角相机和激光雷达（LiDAR）数据以实现360°感知，标注频率为2Hz，包含高清地图（HD maps）和目标边界框；该数据集采用无反应仿真（non-reactive simulation）和闭环评估方式，可对规划性能进行全面评估。对于Bench2Drive，研究遵循其数据集设置，采用驾驶分数（Driving Score, DS） 和成功率（Success Rate, SR，单位：%） 作为评价指标；对于NavSim，采用其提出的扩展PMD分数（Extended PMD Scores, EPDMS） ——一种加权组合型指标——作为评价标准。

实现细节：研究在四个不同基准数据集上验证了GuideFlow的性能，通过统一训练协议和基线模型确保对比公平性，具体设置如下：

NavSim数据集：以TransFuser为基线模型，在NavTrain子集上训练100轮（学习率LR：）；采用GTRS-Dense（基于v2-99 backbone）评分模型选择多模态轨迹。
NuScenes数据集：基于SparseDrive（700个训练场景）实现，遵循其两阶段训练协议；GuideFlow以第一阶段的感知模型为初始模型，微调8轮（学习率LR：）。需特别说明：ADV-NuScenes数据集仅用于域外（OOD）评估，不参与任何训练过程。
Bench2Drive数据集：以Hydra-Next为基线模型，将其轨迹生成模块替换为GuideFlow后，对整合后的模型训练20轮（学习率LR：）。更多实现细节详见附录。

主要结果

闭环结果：如表1所示，在NavSim数据集的Navhard高难度子集上：

未使用评分器（No Scorer）时，GuideFlow的EPDMS得分为27.1，在多数指标上优于无评分器的基线模型（如LTF、GTRS-DP），体现了其在无辅助评分情况下的稳健规划能力。
集成评分器（Scorer）后，GuideFlow创下当前最优（SOTA）性能，Navhard子集的EPDMS得分达43.0，较此前最佳结果提升1.3分。

如表2所示，在Bench2Drive数据集上：

GuideFlow的驾驶分数（DS）达75.21，成功率（SR）达51.36%，优于多数端到端自动驾驶基线模型。相比基于专家知识蒸馏的方法（如ThinkTwice、DriveAdapter）及Hydra-Next基线模型，GuideFlow在闭环稳健性和决策稳定性上展现出显著优势。

Bench2Drive和NavSim数据集上的性能提升，证实了将约束机制融入生成过程的有效性——该设计可直接转化为规划与驾驶关键指标的提升。这些跨数据集的一致性能增益，源于GuideFlow将安全约束直接嵌入轨迹生成过程的核心能力，进而系统性地改善了EPDMS等关键规划与驾驶指标。

开环结果：在开环数据集（NuScenes、ADV-NuScenes）上，由于传统L2距离无法合理评估非模仿类方法，研究仅以碰撞率作为评价指标。如表3所示：

GuideFlow在所有预测时域下均实现最低碰撞率，在正常与对抗性场景中均表现出持续的安全性能。在NuScenes数据集上，其平均碰撞率为0.07%；在ADV-NuScenes数据集上，平均碰撞率为0.73%。
与SparseDrive相比，GuideFlow在NuScenes和ADV-NuScenes上的碰撞率分别降低0.08%和1.02%，且在NuScenes上显著优于UniAD和VAD。
值得注意的是，GuideFlow在1秒预测时域内几乎无碰撞（碰撞率0.00%），2秒预测时域内碰撞率仅为0.02%，体现了其在短时域预测中的高可靠性。

这些安全性能的提升，直接源于GuideFlow将安全约束融入生成过程的能力——生成的轨迹本质上具备碰撞感知能力，且在不同场景中均表现稳健。

消融实验

不同动态条件的影响：研究针对不同动态条件信号开展消融实验，结果如表4所示。与基线模型相比，所有模型变体均实现性能提升，验证了“无分类器意图与奖励引导”方法的有效性。其中，基于规划锚点（Plan Anchor, PA）引导的模型变体表现最优：EPDMS得分为29.0，驾驶分数达75.21，优于采用简单驾驶指令（Driving Command, CM）或目标点（Goal Point, GP）引导的变体。这一优势源于规划锚点能够封装更丰富的决策信息，同时解决“行驶目标（where to drive）”与“行驶方式（how to drive）”两大核心问题。消融实验结果表明：在“无分类器意图与奖励引导”框架下，尽管每种引导信号均能提升模型整体性能，但设计更具信息性和有效性的引导信号，仍是大幅提升模型生成能力的关键。

约束生成模块的影响：研究探究了三种约束生成方法对模型性能的影响，结果如表5所示。单独使用任意一种约束模块均能提升模型性能，充分证明了GuideFlow中“约束生成”设计的有效性。具体来看：

流状态约束（CF）模块的性能增益更为显著（EPDMS提升1.6分，成功率提升0.45%），优于速度场约束（CVF）模块。二者的核心差异在于：CVF在每一步生成过程中均进行修正，可能干扰概率路径的平滑性并降低生成质量；而CF仅在生成过程中进行一次修正，这种“单次干预”既能最小化对概率路径的干扰，又能确保约束满足，同时为模型预留充足时间以根据场景调整轨迹。
EBM流优化（RFE）模块对EPDMS的提升最为显著，尤其在域外（OOD）场景评分（第二阶段EPDMS）中表现突出。这一结果凸显了RFE的核心作用：感知约束规则并引导模型修正结果。由于约束规则具有本质上的泛化性，且RFE模块能有效感知这些规则，GuideFlow在域外场景中实现了最优性能。
CF与RFE模块组合使用时，模型性能达到最佳：EPDMS得分为27.1，驾驶分数达75.21，成功率达51.36%。这表明约束生成中的三种方法并非相互对立，而是具有互补性——CVF与CF负责在生成过程中执行约束，RFE则确保生成结果进一步优化以符合约束规则。更多消融实验细节详见附录。

奖励作为风格条件（RAS）的影响：本消融实验旨在探究RAS模块对模型性能的影响。实验中，将激进度评分（EP）设置为1，以专门鼓励生成更激进的轨迹。结果显示：

当模型集成RAS模块时，EP评分从79.6显著提升至82.3，证实了通过奖励条件调节轨迹激进度的可行性。
但与此同时，EPDMS评分下降0.8分。这表明：无差别鼓励激进轨迹会损害安全约束，进而导致性能下降。

GuideFlow的超参数敏感性：研究对三个关键超参数进行了消融实验，结果如表6所示：

超参数λ的影响：当λ从0.1增至0.5时，EPDMS评分持续下降。性能下降并非源于约束策略本身，而是由于对预测速度场的过度干扰，破坏了流的平滑性并降低了轨迹质量。
超参数的影响：当从10增至50时，EPDMS评分先升后降。这一趋势表明：CF模块能有效修正累积偏差，但过晚启动约束会导致模型缺乏充足步骤适应动态场景，从而限制生成质量。
超参数K的影响：尽管修正流理论上允许采用较大的采样步长，但实际中，与理想模型的偏差会限制过大步长的使用。步长过大将破坏采样稳定性，导致轨迹异常并引发性能下降（如表6所示）。

定性结果

如图4所示，在多种驾驶场景下的视觉对比表明，本文提出的GuideFlow方法相比DiffusionDrive具有显著优势：GuideFlow能生成满足约束的轨迹，在大幅降低碰撞风险的同时，严格遵守车道行驶规则。具体而言：

在图4（c）和（d）的避障场景中，与DiffusionDrive相比，GuideFlow生成的轨迹能明确响应周围车辆，执行避撞操作；
在图4（b）的刹车场景中，GuideFlow能维持静止状态，避免与前方车辆发生潜在碰撞；
在转弯、变道等更复杂的驾驶任务中，GuideFlow同样表现更优。

结论

本文提出了一种基于流匹配的规划框架GuideFlow。该方法的核心在于：通过融入驾驶指令、目标点、规划锚点等多种条件信号，引导生成过程向场景感知型行为演进；此外，本文创新性地提出三种策略，在生成过程中执行显式约束。

在NavSim、NuScenes、Bench2Drive等数据集上的大量实验证实了GuideFlow的有效性。尤其在具有挑战性的域外场景中，GuideFlow展现出卓越的稳健性。尽管GuideFlow性能优异，但加速采样会导致其性能下降。未来的研究方向将是整合重流（reflow）与均值流（meanflow），以提升模型的采样速度。