哈工大提出LAP：潜在空间上的规划让自动驾驶决策更高效、更强大！

最新推荐文章于 2025-12-03 18:56:16 发布

转载最新推荐文章于 2025-12-03 18:56:16 发布 · 16 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247687152&idx=2&sn=1a0b524ed8d6365812db9cd1ccff5281&chksm=cf67f628495010b76e6cb64a062c86662c77c93b8bdc4e24fbeabb8296e92f99554b644a1f81&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

论文作者 | Jinhao Zhang等

编辑 | 自动驾驶之心

本文的核心设计哲学在于：去除掉冗余的动力学细节，让模型专注于规划的高层语义。LAP 通过将规划放到去除掉动力学细节的语义空间上进行，从而提高了模型对复杂、多模态的驾驶策略的建模能力，并大大提升了推理速度。

本文首先设计了针对轨迹数据的 VAE 模型，将原始轨迹压缩到语义化的潜在空间，随后在潜在空间上作规划，让模型专注于高层驾驶策略。其次，针对潜在空间规划带来的挑战，本文进一步引入初始状态注入、无分类器引导、细粒度特征蒸馏等技术进一步提升模型性能。在大规模自动驾驶规划数据集 nuPlan 上的实验证实了方法的有效性。尤其在最具挑战性的 Test14-hard 数据集上，模型以十倍的推理加速，取得大幅领先当前 SOTA 方法（提高约 3.1 score）的性能，闭环评测分数达到 78.52。

论文标题：LAP: Fast LAtent Diffusion Planner with Fine-Grained Feature Distillation for Autonomous Driving
论文链接：https://arxiv.org/abs/2512.00470

背景回顾 (Background Review)

自动驾驶系统的核心在于能够处理复杂交互环境的鲁棒运动规划。该领域的发展经历了以下几个阶段和挑战：

传统方法的局限性： 早期的基于规则的系统（如有限状态机）虽然具有可解释性，但其手工设计的逻辑难以扩展，无法应对开放世界中的长尾场景。
模仿学习 (Imitation Learning, IL) 的瓶颈： 数据驱动的 IL 方法容易受到“模式平均”（mode-averaging）的影响，即模型将多个有效的专家轨迹坍缩成单一的、物理上不可行的路径，无法捕捉人类决策的多模态特性。
扩散模型的引入与带来的问题： 去噪扩散概率模型（DDPMs）虽然能够建模复杂的多模态分布，但现有方法直接在原始轨迹的路点（waypoints）上进行操作。这种做法存在两个核心缺陷：

计算效率低： 迭代采样过程导致显著的延迟。
容量浪费： 模型将大量能力消耗在模拟底层的运动学细节（如连续性、速度限制）上，而不是关注高层的驾驶策略语义。

为了解决这些问题，我们提出了 LAP (LAtent Planner)，旨在将高层意图与轨迹的底层运动学解耦，在解耦得到的潜在空间中进行规划。

预备知识 (Preliminaries)

扩散模型基础

扩散模型通过反转一个前向加噪过程来生成样本。

前向过程： 在时间内向数据添加噪声，其分布可表示为：

其中和是噪声参数。

反向过程： 通过求解扩散常微分方程（ODE）从噪声中恢复数据：

模型使用神经网络来估计分数函数。

无分类器引导 (Classifier-free Guidance)

为了增强生成样本与输入条件的一致性，同时学习无条件模型和有条件模型，推理时使用参数控制条件对齐度与样本多样性之间的权衡：

在 LAP 中，这一技术主要用于增强导航信息的引导作用。

LatentPlanner 算法详解 (Methodology)

如图1所示，LAP 框架将轨迹生成分解为两个阶段：在高层语义化的潜在空间作规划，随后再以高保真度重建对应轨迹。

图 1：Latent Planner整体框架示意图

轨迹的潜在表示 (Trajectory Representation in Latents)

我们设计了一个基于 Transformer 的 轨迹变分自编码器 (Trajectory VAE)。

编码器 (Encoder)： 使用可学习的查询（Queries）和自注意力机制聚合轨迹的结构信息，将轨迹压缩为低维潜在向量。
解码器 (Decoder)： 通过路点查询（Way-point queries）利用交叉注意力机制从潜在表示中重建轨迹。
训练目标： 包含重建损失（MSE）、KL 散度以及为了提高平滑度引入的 差分损失 (Differential Loss) ：

其中为差分项权重（实验中设为 0.01）。

潜在空间上的规划 (Planning on Latents)

在 VAE 训练完成后，再训练一个潜在扩散模型（DiT 结构）来预测轨迹对应的潜在向量。模型具体结构如下：

场景编码： 使用 MLP-Mixers 编码周车历史和车道信息，使用 MLP 编码静态障碍物，并通过一个 Transformer Encoder 融合得到最终的场景表示。
初始状态注入 (Initial State Injection, ISI)： 由于周车的起点并不固定，我们发现不添加额外信息会导致模型对周车的预测无法收敛。因此，我们将周车的初始状态注入到 DiT 的输入和输出层，为预测周车轨迹提供一个明确的先验“锚点”。

图 2：初始状态注入模块

导航引导增强： 我们观察到模型在闭环规划中会出现“因果混淆”现象：自车完全根据周围车辆当前状态来作决策而完全不按导航路线行进。因此，我们在训练中随机丢弃导航信息，并在推理时使用 Classifier-free Guidance 强化导航约束来缓解这一问题。

弥合语义–感知鸿沟 (Bridging the Semantic–Perception Gap)

在压缩的语义空间规划虽然高效，但也带来新的问题：压缩得到的潜在空间是一个高度抽象化的语义空间，而条件输入（周车历史、车道线等）仍为低层的、细粒度的向量化表示，这导致两者的信息交互与融合变得困难。针对此，我们引入一个细粒度特征蒸馏 (Fine-grained Feature Distillation) 模块来引导规划空间与条件输入空间的信息交互过程：

图 3：细粒度特征蒸馏模块

特征教师： 首先获取一个能够将场景信息与规划信息作良好对齐与融合的教师模型。
特征蒸馏： 将教师模型中间层的特征作为目标，指导 LAP（学生）的中间层特征的学习。
蒸馏损失：

总损失为。这可以为学生模型的中间层特征提供一个已经编码完美（良好的规划–场景交互与对齐）的“模板”，从而降低学生模型中规划空间与向量化输入空间的交互“难度”，引导更好的特征融合。由于已经有工作证实：像素扩散模型自身就是很好的 image-condition 对齐编码器，因此我们直接使用像素空间规划器 Diffusion Planner 作为教师模型。

实验结果及分析 (Experiments)

实验设置

数据集： nuPlan 大规模基准测试（1300 小时真实驾驶记录）。
评价指标： 闭环评分（Closed-loop Score），包括非反应性（NR）和反应性（R）场景。指标综合考虑了碰撞、舒适度、进度和交通规则遵守情况。

主要结果

LAP 在 nuPlan 基准上取得了优异的成绩。

性能对比： 如表1所示，LAP 在所有基于学习的方法中实现了 SOTA 性能，并且在加上后处理（refine）后，甚至超过了部分规则–学习的混合方法。值得注意的是，在最具挑战性的 Test14-hard 数据集上，LAP 大幅超越了先前的 SOTA 方法（约 3.1 的提升），说明潜在空间规划可以让模型更好地建模复杂的驾驶策略，提升困难场景下的性能。

推理速度： 如表2所示，相比于之前的 SOTA 方法 Diffusion Planner（需迭代 10 步），LAP 受益于潜在空间的紧凑性，仅需 2 步 采样即可生成高质量轨迹，实现了最高 10 倍 的推理加速。

定性结果与多模态分析

多模态能力： 相比于像素级规划器，潜在空间规划能更好地捕捉多样化的高级驾驶策略（如不同的转弯半径和速度），而不是坍缩到单一模式。参见下图。

图 4：多模态轨迹解码，左图为Latent Planner，右图为Diffusion Planner，Latent Planner表现出更高的多模态驾驶策略

潜在空间可视化（附录分析）：
- 插值： 潜在空间的线性插值能产生平滑的轨迹过渡，证明了潜在空间的光滑性（参见下图）。

图 5：潜在空间插值

聚类： 潜在向量聚类后对应明显的驾驶意图（如直行、转弯、静止），证明其学到的语义空间是高度结构化的（参见下图）。

图 6：潜在空间聚类

降维可视化： 在原始轨迹空间聚类得到“意图”标签，随后用 UMAP 对潜在空间降维并用对应意图染色，结果显示不同区域基本分离开，说明潜在空间结构与意图对齐良好（参见下图）。

图 7：潜在空降降维可视化

消融实验

如下表所示，我们对各个模块进行了详细的消融分析：

设计模块的影响：

初始状态注入 (ISI)： 提升了非反应性环境下的性能，但由于“因果混淆”问题，反应性环境中性能反倒有所降低。
特征蒸馏 (Dist)： 显著提升了模型在两种环境下的表现，证明了其有效性。
导航增强 (CFG)： 大幅缓解了反应性环境中的“因果混淆”问题。

采样步数的影响： 1 步或 2 步采样效果最佳。增加步数（如 3 步以上）反而导致性能下降，原因可能是精度过高的解码严格生成了训练集中的某条轨迹，无法应对闭环规划中的 OOD 场景。
蒸馏策略的影响： 使用教师模型最后一层的特征作为目标，并将权重设为 0.5–1 之间效果最好。
结论 (Conclusion)

本文提出了 LAP，这是一种潜在扩散框架，通过在由 VAE 学习到的解耦语义空间中进行操作，显著提高了自动驾驶规划的性能和效率。
- 核心贡献：
1. 利用变分自编码器实现了高层语义与底层运动学的解耦。
2. 引入细粒度特征蒸馏，弥合了潜在规划空间与向量化场景上下文之间交互与融合的鸿沟。
3. 在 nuPlan 基准上实现了 SOTA 的闭环性能，同时推理速度提升了 10 倍。
自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com