模仿学习之外，端到端轨迹如何优化？轻舟一篇刷榜的工作......

最新推荐文章于 2025-11-30 23:04:40 发布

原创最新推荐文章于 2025-11-30 23:04:40 发布 · 761 阅读

19 ·

CC 4.0 BY-SA版权

文章标签：

#学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Lin Liu等

编辑 | 自动驾驶之心

轻舟智航等团队一篇打榜NavSim v2的工作，指出了两个问题：

主流的模仿学习方法常受困于mode collapse，无法生成多样化的轨迹。
现有生成式方法难以将安全约束和物理约束直接融入生成过程，需额外增加优化阶段来修正输出结果。

为解决这些局限，北交、轻舟、燕山大学、澳洲昆士兰大学的团队提出了CATG——一种基于Constrained flow matching的规划框架。具体而言，CATG显式建模flow matching过程，这一过程本质上可缓解mode collapse，并支持多种条件信号的灵活引导。我们的核心贡献包括：其一，在flow matching过程中创新性地引入显式约束，确保生成轨迹符合关键的安全规则和运动学准则；其二，将驾驶激进程度参数化为生成过程中的控制信号，实现对轨迹风格的精准调控。值得注意的是，在NavSim v2挑战赛中，CATG以51.31的EPDMS得分获得亚军，并荣获创新奖。

论文标题：Beyond Imitation: Constraint-Aware Trajectory Generation with Flow Matching For End-to-End Autonomous Driving

论文链接：https://arxiv.org/abs/2510.26292，也在找点子优化端到端模型的同学可以仔细看看。

一、背景回顾

端到端多模态规划已成为自动驾驶系统中的关键方法，与单轨迹预测方法相比，它在推理阶段显著提升了鲁棒性和适应性。这种能力在模糊或高度交互的驾驶场景中尤为重要——例如无保护左转、密集车流汇入或路口通行等场景，此时多条截然不同的轨迹可能均具备合理性。尽管具备这些优势，大多数当代多模态方法仍依赖模仿学习框架。这类方法从有限的专家示范轨迹中学习，由于真实轨迹的策略多样性不足，往往导致预测结果同质化，缺乏行为多样性。

为应对这些缺陷，研究人员提出了多种替代策略。一系列工作引入生成模型（如扩散过程）以捕捉更广泛的合理轨迹分布。然而，许多此类方法并未显式监督生成去噪过程，仍严重依赖行为克隆目标，因此仍易受mode collapse影响。另一类范式则更进一步，完全依赖生成模型进行轨迹规划，摒弃了模仿学习的使用。尽管这些方法受益于生成模型的特性，但也带来了新的挑战：噪声初始化的随机性可能导致预测结果方差过大，且缺乏硬约束集成机制（如避障或遵守交通规则），影响了生成轨迹的安全性和可解释性。

为解决这些局限，本文提出CATG——一种基于flow matching的新型轨迹生成框架，该框架彻底摒弃模仿学习，同时支持在生成过程中灵活注入显式约束。我们的贡献主要体现在三个方面：

(1) 新的生成框架：提出基于flow matching的多模态轨迹生成器CATG，与传统方法不同，它无需依赖模仿学习，且支持多样化、灵活的条件控制。
(2) 约束引导生成：通过渐进式机制将可行性约束和安全约束显式集成到生成过程中——利用先验感知锚点设计构建约束引导的概率流，并通过基于能量的引导进一步将轨迹导向可行区域。
(3) 奖励条件可控性：将环境奖励信号作为条件输入，在推理阶段实现激进驾驶风格与保守驾驶风格之间的可控权衡。

CATG在ICCV NAVSIM V2端到端驾驶挑战赛中经过了广泛评估，展现出卓越的规划精度和对分布外数据的稳健泛化能力。结合开源评分模型，CATG取得了51.31的EPDMS得分。

二、预备知识

设表示数据空间，本文中使用的两个重要对象分别是：概率密度路径，它是一个时变概率密度函数，即满足；以及时变向量场。

向量场可用于构建时变微分同胚映射（称为流）。该流作为概率路径，连接源分布和目标分布，其通过常微分方程（ODE）定义：

我们可以用神经网络对向量场进行建模。设为服从未知数据分布的随机变量，我们仅能获取的样本数据，而无法直接获取其密度函数本身。此外，令为简单分布（例如标准正态分布）。给定目标概率密度路径以及生成该路径的对应向量场，我们定义流匹配（FM）目标如下：

在CATG中，我们采用修正流（rectified flow）构建概率路径。因此，漂移力被设置为尽可能遵循从指向的线性路径方向，这一目标通过求解简单的最小二乘回归问题实现：

其中是和的线性插值，满足：

三、方法详解

灵活的条件信号

本文采用Transfuser作为感知骨干网络。在flow matching过程中，从标准高斯分布中采样，并将目标轨迹归一化到区间。CATG以为起点、为终点构建流，随后对进行位置编码，并利用Unet编码器[5]将编码为特征。在CATG感知模块之后，系统会得到智能体查询向量、自车查询向量以及鸟瞰图（BEV）特征。

在一个独立的预处理步骤中，首先将BEV地图分割结果转换为二值化道路图，再将其与BEV网格位置编码融合。最终，CATG通过多层交叉注意力机制（如图2所示），将特征与上述所有元素（、、和）进行融合，融合过程满足：

为在推理阶段以无分类器方式灵活控制轨迹生成风格，本文引入三类不同的条件控制信号：

（1）轨迹锚点：CATG将预聚类的轨迹锚点视为驾驶模式的高层抽象。首先通过对整个训练数据集进行最远点采样（FPS），构建规模为8192的轨迹词汇表。CATG采用无分类器引导的训练方式，将驾驶锚点作为条件信号引导轨迹生成。训练阶段，通过计算轨迹词汇表与真实轨迹（GT轨迹）间的动态时间规整（DTW）距离，选取与真实轨迹最相似的锚点作为条件信号；推理阶段，利用预训练的GTRS评分模型（基于V2-99骨干网络）筛选出可能性最高的前100个锚点，将其作为条件输入以生成多样化且合规的轨迹。
（2）目标点：训练阶段，CATG以真实轨迹的终点作为条件信号；测试阶段则相反，以从评分模型获取的锚点终点作为条件控制信号。
（3）驾驶指令：驾驶指令同样属于一类控制信号。CATG将NAVSIM中的指令类型转换为one-hot编码，用作条件信号。

约束感知轨迹生成

生成模型的一大挑战是其中间表示缺乏可解释性，难以直接对输出施加约束。具体在NAVSIM V2挑战赛中，如何让生成轨迹满足驾驶区域合规性（DAC）指标是一项重大难题。不同于Diffusion-Planner中通过车辆距离作为条件信号实现智能体间避障的约束方式，道路几何结构更为复杂。因此，下文将重点讨论如何约束轨迹以满足道路合规性，但需说明的是，本文方法同样可适配其他类型的约束。为解决这一问题，本文提出三种更直接、高效的生成约束方法。flow matching生成过程定义为：

由上述公式可知，下一时刻的生成状态由中间变量和速度场决定，由此可提出一个关键假设：能否通过对这两个量施加约束来控制生成过程？

（1）约束速度场（CVF）：基于道路分割结果，首先从轨迹词汇表中选取满足DAC约束的轨迹。随后，对于作为流起点的给定高斯样本，可计算出导向轨迹的理想速度场。CATG利用该预计算的速度场修正模型预测的可能存在偏差的速度场，进而提出“合成速度场”概念——在采样过程中，合成速度场由模型预测速度场与预计算速度场组合而成（如图1（a）所示），其中权重参数设为-0.1。
（2）约束中间变量（CIV）：由模型预测速度场生成的流往往会偏离理想状态，导致最终样本无法满足约束。该流可离散化为一系列中间变量；因此，若能有效约束这些中间变量，就能间接控制最终生成结果。但对每个时刻的进行修正效率较低，为此通过修正流的起点来解决这一问题：将初始高斯随机样本替换为从轨迹词汇表中选取的、满足DAC约束的锚点（如图1（b）所示）——尽管该锚点在其他评估指标上可能表现不佳，但CATG可对其进行优化以提升合理性。如图2所示，以DAC合规锚点为起点的采样方式，能让模型生成更合理的轨迹。
（3）约束感知训练（CAT）：不同于Diffusion-Planner仅在推理阶段引入能量项，本文在训练阶段就通过能量函数编码约束。当轨迹沿能量递增方向采样时，其满足约束的概率更高（如图1（c）所示）。具体而言，DAC约束可通过计算欧氏符号距离场来表示：轨迹越靠近道路边界，能量越低，以此对非期望偏离进行惩罚。本文采用能量匹配（Energy Matching）框架进行模型训练，分为两个阶段：第一阶段训练flow matching过程，第二阶段训练能量匹配过程。

以奖励为条件

为在推理阶段控制轨迹激进程度，CATG将自车过程（EP）得分用作条件信号。该得分通过在NAVSIM模拟器中评估NavTrain数据集中的每条真实轨迹得到。推理时，若将EP条件设为1，模型会倾向于生成更激进的驾驶行为。

四、实验结果

实验设置

本文模型的训练分为两个阶段：

第一阶段：训练flow matching过程、感知模块与地图分割模块。实验采用NavTrain数据集子集，批大小（batch size）设为64，学习率为，共训练90轮（epoch）。
第二阶段：遵循能量匹配框架，仅对流传匹配过程进行微调。同样使用NavTrain数据集子集，批大小为64，学习率（原文未明确给出具体数值），共训练10轮。

推理阶段，CATG通过100步采样生成100条候选轨迹，随后利用预训练的开源GTRS评分模型（基于V2-99骨干网络）对这些候选轨迹及轨迹词汇表进行排序，选取最合理的轨迹作为最终输出。

实验结果

本文提出的CATG架构在NAVSIM V2中的实验结果如表1所示。

五、局限性

采用100步采样生成轨迹的计算成本仍然较高，而加速采样过程又可能导致轨迹质量下降。因此，未来研究的一个重要方向是在提升采样效率的同时，保持生成轨迹的质量。

六、结论

本文提出一种基于flow matching的端到端规划器，该方法能够融入灵活的条件信号以控制轨迹生成，此外还创新性地提出三种不同策略，在生成过程中施加显式约束。表1所示的实验结果表明，本文框架取得了51.31的EPDMS得分。

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com