预测规划统一新框架！利用一致性模型的端到端预测规划器来了（普林斯顿大学）...-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享普林斯顿大学的最新工作！基于一致性模型的自动驾驶端到端预测规划器！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

论文作者 | Anjian Li等

编辑 | 自动驾驶之心

写在前面&笔者的个人理解

一篇关于集成了自动驾驶预测和规划的最新算法框架文章。轨迹预测和规划是自动驾驶系统当中至关重要的两个组成部分。在早期的传统自动驾驶系统当中，预测和规划属于是各自独立的模块，这种范式限制了执行交互式规划的能力。因此，本文我们提出了一个新颖的统一数据驱动框架，将预测和规划与一致性模型相结合。我们提出的算法模型以更少的采样步骤实现了更好的性能，使其更适合实时部署。

首先，我们先介绍模块化预测和规划范式的问题。然后引出我们本文所提出算法模型的网络结构和细节。接下来是在WOMD数据集上的实验结果和指标分析，最后是本文所得出的结论。

简介

为了在动态环境中安全高效地行驶，自动驾驶汽车必须有效地预测并与各种道路参与者互动，包括其他车辆和行人。这通常需要一个预测模块来预测其他代理的未来轨迹，以及一个规划模块来为自车生成轨迹。虽然预测模块已广泛采用数据驱动的方法来从人类驾驶数据中学习，但规划模块通常依赖于基于优化的方法。这两个模块通常以解耦、交替的方式运行。

但是这种解耦的方法引入了根本性的限制。规划器生成的交互行为本质上是被动的，而不是主动的，因为规划器响应其他代理，而不考虑它们如何对自车做出反应。这种限制可能导致计算成本高昂的心理理论推理。在高度交互的场景中，例如车道合并，主动规划是必不可少的，被动规划可能会导致自车卡住。现有的解决方案要么难以随着代理数量的增加而扩展，要么由于对解决方案搜索空间的限制性探索而损害了最优性。

此外，模块化方法可以独立优化预测和规划，与联合训练的端到端框架相比，这通常会导致效率降低。预测和规划模块之间的交替也引入了延迟和计算效率低下，使得满足实时操作的需求变得具有挑战性。

近年来，扩散模型被广泛应用于自动驾驶领域。它们对条件分布进行建模的能力使它们非常适合轨迹规划应用，因为它允许结合规划和预测的关键背景，包括轨迹历史、地图信息、自车的目标位置等。与 Transformer 模型相比，基于扩散的方法还支持可控生成，以仅在测试时通过引导采样来满足额外要求，而无需任何额外的训练。然而，扩散模型通常需要许多采样步骤才能获得高质量的样本，这使得满足自动驾驶汽车实时操作的需求变得具有挑战性。

考虑到上述提到的相关问题，在本文中我们提出了一种基于一致性模型的端到端预测规划器，旨在在单一数据驱动框架内统一规划和预测。大量的实验表明，我们提出的算法模型在Waymo Open Motion Dataset数据集上与现有各种方法相比在轨迹质量、约束满足和交互行为方面的优势。

论文链接：https://arxiv.org/pdf/2502.08033

这里也推荐下自动驾驶之心《端到端自动驾驶》实战课程！课程全面梳理了完全端到端、专注于PnC的端到端方法。课程已全部更新完毕，随到随学！

拼团大额优惠！欢迎加入学习~

算法模型网络结构&细节梳理

Motion-Transformer Encoder

在本文中，我们通过规划目标来规划自车的轨迹，同时预测其他车辆的交互行为。为了将轨迹历史和地图信息编码为一致性模型的条件输入，我们采用了 MTR 的编码器架构。这种基于 Transformer 的架构通过局部注意机制有效地对场景上下文进行建模，从而实现代理与路线图之间的高效交互建模，同时保持内存效率。它还引入了一个具有损失函数的密集预测头来单独训练此编码器。此外，需要注意的是，我们的方法是与编码器无关的，允许灵活选择任何合适的场景编码器与我们基于一致性模型的预测规划器集成。

Consistency Model

一致性模型仅需一个或几个采样步骤就能从复杂分布中生成高质量样本。它由正向扩散过程和逆向扩散过程组成。假设是我们数据集中的轨迹，我们首先使用在整个数据集上计算的平均值和标准差对中所有的轨迹进行标准化。

令为此类归一化轨迹的空间，是数据分布。在前向过程中，我们首先从中抽取初始样本。然后我们应用增加噪声的方式，通过步来逐渐破坏。具体来说，在每一步，我们从正态分布中进行采样，并且假设破坏的数据可以从下式子获得

我们通过选择足够大的噪声方式，通过重复从数据中进行采样并通过加性高斯噪声进行破坏时，进而得到相应的分布。

假设，是条件信息空间。在逆向过程中，我们的目标是学习一个具有参数的一致性函数，该函数映射嘈杂的轨迹样本、条件以及噪声级别直接到相应的干净样本。这是通过选择特定的函数形式来实现的。

对于一致性模型训练，我们的目标是加强输出在相邻采样步骤中的一致性。一致性训练通过最小化以下损失函数进行实现。

在数据生成过程中，我们首先抽取样本。然后使用训练好的一致性模型。我们通过首先预测近似的干净数据，然后从正态分布中抽样来进行迭代抽样。

在声明好上述的符号和所定义好的问题后，下图展示了我们提出算法模型的整体网络结构。

具体而言，我们首先使用MTR编码器对代理的轨迹历史和地图信息进行编码。然后，我们使用一致性模型，该模型采用自车代理的规划目标和MTR 编码特征的条件输入，分别为自车和周围代理生成轨迹计划和预测。最后通过一致性模型的引导采样，可以实现自我代理的额外规划约束。

Data pre-processing

为了训练扩散模型或一致性模型，我们通常需要对输入数据进行规范化。如果我们联合建模自车和周围代理的未来轨迹，使用以自车为中心的坐标系会在数据中引入很大的差异，特别是对于在不同场景中位置差异很大的周围代理而言。因此训练性能会大大降低。相反，我们应用类似于 MTR++ 的坐标变换，将每个代理的轨迹映射到其自己的局部坐标系中，以当前时间步的位置为中心。这种转换为我们提供了方差大幅降低的数据。然后，我们计算整个数据集中转换后的轨迹的经验平均值和标准差，并将它们标准化为零均值和单位方差。为了保留代理之间的相对空间关系，我们收集由每个代理在时间步的位置组成的参考状态。

Consistency Model Training

令表示自车和周围的未来轨迹空间，令表示条件输入的空间，包含编码的历史轨迹、地图特征、自我代理的目标状态和参考坐标。给定一个规划目标和环境背景作为条件，我们利用一致性模型从条件概率分布中抽取未来轨迹。每个轨迹样本代表自车和周围代理的一种可能的联合未来行为。

为了训练我们的预测规划器，我们使用混合损失函数一步联合训练 MTR 编码器和一致性模型，该函数由一致性训练损失和 MTR 编码器的密集预测损失的加权和构成。

Guided Sampling

在使用经过训练的一致性模型生成轨迹以对自车的未来轨迹施加规划约束时，我们提出了一种类似于分类器引导的新型引导采样方法。重要的是，这种引导仅在测试时的采样过程中应用，而无需对训练程序进行任何修改。假设有个规划约束需要最小化，并从分类器指导中汲取灵感，我们可以在每个采样步骤中对预测执行梯度下降过程。

然而，同时优化多个约束对于有效找到合适的步长提出了重大挑战，特别是当约束可能相互冲突时。为了应对这一挑战，受ADMM算法的启发，我们提出了一种新颖的交替方向法，该方法在每个采样步骤中一次仅优化一个约束

在我们的方法中，我们按顺序优化每个约束，并在每次梯度下降迭代期间使用相应的步长。虽然我们对优化顺序和相对较小步长的选择是基于经验观察的，但这种策略在实践中已经证明了有效的收敛，而使用梯度下降的标准指导方法很难实现。ADMM的收敛通常在包括封闭、适当和凸函数以及适当选择的步长的条件下得到保证。

Planning Constraints Construction

我们假设自车的动态用如下的形式进行表示

假设我们仅使用自车的未来状态中的和来构建我们的规划约束函数。因为其他状态（如或）可能不满足动力学方程，而且也非常嘈杂。利用动态的微分平坦性，我们可以推断出和。

然后我们可以进一步的推断控制输入

在有，，以及情况下，我们考虑三种类型的规划约束以最小化如下。

实验结果及评价指标

我们将不同方法生成的规划轨迹与数据集中的真实轨迹进行比较。该场景要求自车进行左转，然后直行以达到其目标地点，如下图所示。

DDPM-4 达到了目标，但产生了嘈杂的轨迹，这可能是由于扩散模型的采样步骤不足以生成高质量的轨迹。虽然 DDPM-10 增加的采样步骤产生了稍微平滑的轨迹，但代价是更长的计算时间。DDIM-4 尝试仅使用 4 个采样步骤来加速 DDPM-10，但无法生成达到目标的轨迹。具有较大模型尺寸的 Transformer 生成的轨迹接近真实值，但错过了准确的目标位置。相比之下，我们的一致性模型生成的轨迹既与真实值一致，又精确地到达目标位置。

我们通过 Waymo 运动预测挑战赛的指标，定量评估了自我车辆相对于人类地面实况的规划性能，如下表所示。

通过表格中的实验结果可以看出，结果与我们的定性观察结果一致：我们的一致性模型实现了最低的 minADE 和 minFDE，表明它很好地捕捉了人类的驾驶模式。此外，添加引导采样显著改善了一致性模型的 minFDE，因为它明确地纳入了实现目标的约束。

此外，我们使用三个表征驾驶行为的指标来评估轨迹质量，如下表所示。

此外，下图中展示了我们的方法在选择目标位置方面的灵活性。我们的一致性模型在瞄准新的目标位置时保持高质量的轨迹规划，即使它们不在数据集中。

我们的预测规划器的一个关键优势是它能够确保与交通中的其他道路使用者安全有效地互动。我们的规划器展示了生成主动行为的能力，如下图所示。

通过下表可以看出，我们的基础一致性模型已经实现了比其他基于扩散的方法更准确的目标达成和更流畅的行为。

通过引导采样，达到所有方法中的最低值。需要注意的是，这种改进不需要模型重新训练，并且仅适用于推理期间。

结论

在本文中，我们提出了一种新颖的数据驱动方法，该方法使用一致性模型统一了轨迹预测和规划。通过对自车和周围代理的轨迹的联合分布进行建模，我们的方法可以实现高效和交互式的规划，而无需在预测和规划模块之间进行迭代交替。实验结果表明，与现有方法相比，我们的方法实现了卓越的轨迹质量和交互行为，同时需要更少的采样步骤。

① 自动驾驶论文辅导来啦

② 国内首个自动驾驶学习社区

『自动驾驶之心知识星球』近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描加入

③全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）