从E2E到RL

最新推荐文章于 2025-12-19 13:55:31 发布

原创最新推荐文章于 2025-12-19 13:55:31 发布 · 682 阅读

24 ·

CC 4.0 BY-SA版权

文章标签：

#自动驾驶 #端到端 #深度学习 #LLM

Auto Driving 专栏收录该内容

35 篇文章

订阅专栏

RoadMap: E2E → LLM → VLM → VLA → Word Mode → RL。

1. E2E

UniAD: Planning-oriented Autonomous Driving (CVPR 2023 Best Paper);
VAD: Vectorized Scene Representation for Efficient Autonomous Driving (ICCV 2023);
VADv2: End-to-End Vectorized Autonomous Driving via Probabilistic Planning (arXiv 2024);
GenAD: Generative End-to-End Autonomous Driving (ECCV 2024)；
DiffusionDrive: Truncated Diffusion Model for End-to-End Autonomous Driving (CVPR 2025)；

1.1. UniAD

纯视觉。文章有说明，可以使用融合感知，只需可以同样生成BEV Feature即可。
BackBone：CNN/ResNet。
Encoder：BEVFormer。可替换其他网络结构。
BEV Feature：栅格化表示(rasterized representation)，各任务共享（planner也会使用BEV）。Map和Occ是栅格化表示。
Decoder：TrackFormer、MapFormer、MotionFormer、OccFormer、Planner。
Constraints：Planner的输出轨迹会和Occ结果一起做优化，这个是在推理阶段。
Unified query interfaces：使用queries链接所有的任务，形成E2E。
Train：pre-train perception parts，各个模块都训练显式监督训练。
Limits：系统庞大，计算开销大。

1.2. VAD

VAD的思想和UniAD有很多的一致性。首先都是纯视觉；其次，都以BEV特征为基础，通过Query链接各个任务。不同的是，VAD采用了矢量化的场景表示方式，即Map和Agents都使用vector表示，提升了计算效率和规划性能。

纯视觉。
BackBone：CNN/ResNet。
Encoder：BEVFormer。
BEV Feature：栅格化表示(rasterized representation)，Motion和Map任务共享。Planning部分不再直接使用BEV Feature，而是使用Motion和Map的输出。
Vectoried Scene Representation：矢量化场景表示。Motion、Map和Planning的输出都是矢量。
Decoder：Motion Transformer、Map Transformer和Planning Transformer。网络结构比UniAD更简单。不需要Tracking和Occ Prediction。
Constraints：Planner的输出轨迹会进行agent碰撞约束、地图行驶域约束和车道方向约束，这个是在训练阶段。
Unified query interfaces：使用queries链接所有的任务，形成E2E。
Train：所有模块一起训练(可以pre train perception)，各个模块都训练显式监督训练。
Limits：没有利用多模态预测结果；没有充分利用交通信息。

1.3. VADv2

VADv2延续了VAD的矢量化表示，引入了规划动作空间的概率建模，将规划问题建模为概率分布问题，强调了多模态规划能力，推理灵活，可采样多条候选轨迹，易于和传统规则/优化方法结合。

纯视觉。
BackBone：CNN/ResNet。
Encoder：BEVFormer。
BEV Feature：栅格化表示(rasterized representation)，Motion和Map任务共享。Planning任何不再直接使用BEV Feature，而是使用Motion和Map的输出。
Vectoried Scene Representation：矢量化场景表示。Motion、Map、Traffic element和Planning的输出都是矢量。
Decoder：Motion Transformer、Map Transformer和Planning Transformer。网络结构比UniAD更简单。不需要Tracking和Occ Prediction。
Planning vocabulary：使用训练数据采样。
Constraints：通过KL散度提升planning vocabulary中轨迹和训练数据分布概率的一致性，通过约束(和VAD一样)抑制违反约束的轨迹的概率。
Unified query interfaces：使用queries链接所有的任务，形成E2E。
Train：所有模块一起训练(可以pre train perception)，各个模块都训练显式监督训练。
Limits：没有体现出交互；vocabulary数量对计算效率的影响。

1.4. GAD

以前的端到端模块化为“perception -> prediction -> planning”的pipeline，忽略了主车和其他交通参与者的交互。GAD在VAD的基础上，使用生成模型VAE(Variational Autoencoder)来同时生成主车轨迹和他车预测轨迹，并处理不确定性和多模态。

VADv2是通过planning vocabulary来处理不确定性和多模态，而GAD是使用VAD生成连续的先验轨迹的潜空间变量的高斯分布。

纯视觉。
BackBone：CNN/ResNet。
Encoder：BEVFormer。
BEV Feature：栅格化表示(rasterized representation)，Detection和Map任务共享。
Vectoried Scene Representation：矢量化场景表示。和VAD类似，通过query/token链接不同的任务。
Decoder：Detection Transformer、Map Transformer和Scene Transformer。感知任务和VAD基本一致。
VAE：使用VAE生成模型，建模潜在空间变量的概率分布。
Loss：和VAD(v2)基本类似。
Unified query interfaces：使用queries/token链接所有的任务，形成E2E。
Train：所有模块一起训练(可以pre train perception)，各个模块都训练显式监督训练。在推理阶段，丢弃掉对真实轨迹的编码和解码。
Limits：性能着重与VAD-tiny对比；不是真正的交互，是联合建模，planning和prediction共享了latent space。

1.5. DiffusionDrive

DiffusionDrive使用”perception -> planning“的pipeline，perception遵循的以往的设计范式，在planning模块使用了扩散模型表达驾驶行为的不确定性和多模态特性。由于扩散模型从高斯分布的随机噪声去噪过程计算耗时，且生成轨迹高度近似，DiffusionDrive通过Anchored Gaussian Distribution，使用人类驾驶数据集聚类生成锚点轨迹，只加少量噪声，然后再去噪，步数少，速度快，并且保持了轨迹的多样性。

纯视觉，或者多传感器融合，只要生成BEV Feature即可；
BackBone：ResNet；
Encoder：BEVFormer；
Decoder：Diffision decoder，采用了扩散模型；
Diffusion mode：

- Anchored Gaussian Distribution：使用人类驾驶数据集，采用K-means anchors，生成一组锚点，每个锚点就是一条典型的驾驶轨迹；推理时的锚点数量可以少于训练时锚点数量；
- Truncated Diffusion：在anchor上只加少量噪声（truncated schedule），而不是完全扩散到随机高斯；

Loss：只对主车轨迹做了监督学习，没有对agent预测轨迹；论文没有描述是否对感知任务采用辅助监督学习；
Limits：没有体现出交互；极端环境需要更多的采样轨迹和去噪过程；

1.6. 总结

UniAD使用统一的query将各个任务链接起来，VAD采用了矢量化建模提高了计算效率，VADv2进一步引入规划动作空间的概率建模，将规划问题建模为概率分布问题，GAD采用VAE生成连续的规划动作空间，而DiffusionDrive又引入了先验驾驶行为。端到端的pipeline从"perception -> prediction -> planning"到"perception -> planning"，planning集成预测和规划任务。perception任务的核心是BEV feature，以纯视觉为主。plannning任务从简单的MLP解码结构，发展到生成模型，以充分表达驾驶行为的不确定性和多模态特性。

2. LLM

Drive Like a Human: Rethinking Autonomous Driving with Large Language Models(IEEE/CVF 2024)
DiLu: A Knowledge-Driven Approach to Autonomous Driving with LLM(ICLR 2024)

两篇论文都是上海AI Lab的工作，DiLu是第一篇论文的后续工作。

2.1. Drive Like a Human

类人驾驶需要三种核心能力：

Reasoning(推理能力)：模型面对具体的驾驶场景，能够通过常识和经验做出决策。
Interpretation(可解释能力)：模型做出的决策能够被解释。
Memorization(记忆能力)：在推理和解释场景后，需要记住过往的经验，以便在遇到类似情境时做出类似决策。

LLMs，例如GPT，具有以上三种能力，文章在HighwayEnv中使用GPT-3.5构建了闭环仿真，探索LLM能否像人一样理解交通场景，并处理长尾问题。

GPT-3.5是文本模型，无法直接操作仿真环境，因此使用LangChain(大语言模型应用开发框架)，调用Percaption Tools，根据Agent Prompts使用ReAct(Reasoning+Acting)策略，在”思考(Thouhgt) →行动(Action)→观察(Observation)“循环中分析周围环境，进行决策，生成预定义的决策(Discrete Meta Actions)。

Agent Prompts：

- 明确自动驾驶决策时的规则与约束（如保持车距、不频繁变道）；
- 规定”工具使用“的交互方式（Thought→Action→Observation→Final Answer）；
- 避免模型输出模糊或者矛盾的答案，必须使用Final Answer明确标注唯一答案；
- 通过 SYSTEM_MESSAGE_PREFIX / SUFFIX / HUMAN_MESSAGE 组织成一套完整的 system prompt + human prompt 模板，用于 ChatGPT 风格的链式推理（CoT, Chain-of-Thought）+ Tool-Use。

Perception Tools：

- LLM可以使用的工具，并告诉LLM如何使用；
- 可用工具有：

- - 获取可用动作(换道/加速/减速/保持车速等)；
  - 获取某车辆可用车道；
  - 获取某车道上和ego相关车辆；
  - 判断换道、加速、减速、保持车速是否会和其他车辆冲突；

文章直接使用GPT-3.5，没有进行微调，利用Prompts进行驾驶决策。由于LLM只能输入文本，需要使用语言对环境信息进行详细描述，并借助工具进行驾驶行为决策，工具的规则条件是人工手写的。显然LLM并没有针对驾驶场景进行微调，并容易受到”工程师“手写规则的影响。

2.2. DiLu

DiLu架构有4个模块：

Environment(环境)

- 提供驾驶场景信息；
- Driver Agent从中观察并获得当前场景描述；

Reasoning(推理)

- 输入：环境描述+从Memory模块检索到的few-shot(少样本学习)类似经验；
- 处理：

- - Prompt Generator将场景描述与经验结合生成prompt；
  - 将prompt输入LLM，利用LLM的常识与推理能力生成初步决策；
  - Decision Decoder将LLM的输出解码为具体动作；

- 输出：时间序列的决策序列。

Reflection(反思)

- 对Reasoning模块产生的决策序列进行安全性评估；
- 将unsafe决策修正为安全可执行的动作；

Memory(记忆)

- 存储安全或者修正后的决策，用于future retrieval；
- 支持推理模块生成基于历史经验的few-shot prompts，形成闭环学习。

2.2.1. Memory

Memory Initialization(初始化)

- 类似于人类学车前培训，手动挑选一些典型场景，标注正确的决策和推理过程，这些初始化记忆构成Memory模块的“种子”，为LLM提供初步的驾驶逻辑。

Memory Recall(记忆检索)

- 在每个决策时刻，将当前场景描述为文本，然后将文本嵌入成向量，作为memory key，在Memory中搜索，找到最相似的场景及其对应的推理过程。
- 检索出的历史经验(few-shot examples)作为LLM参考示例，指导复杂场景下做出合理决策。
- few-shot作用：让LLM不必从零推理，提供类似场景的决策模板，提升闭环驾驶任务精度。

Memory Storage(记忆存储)

- 当LLM做出正确决策或者通过Reflection模块修正决策后，将当前场景文本描述嵌入向量作为key，与推理过程配对存储到Memory模块；
- 系统不断累积经验，形成持续学习能力。

2.2.2. Reasoning

Reasoning模块有5步操作：

场景编码：将当前驾驶环境转成自然语言描述，即作为prompt输入，又作为Memory模块的检索key；
检索经验：将场景描述文本嵌入向量，在Memory中搜索Top-k最相似场景，拿到他们的场景描述和推理过程，作为few-shot experiences，帮助LLM参考过去经验；
生成提示词：System prompt(驾驶规则，输入输出格式等)、当前场景描述和few-shot经验。每个决策帧都会生成定制化prompt，保证场景相关性；
输入LLM推理：使用CoT推理，输出一段逐步的逻辑推理文本，最后得到决策；
解码行动：把LLM输出文本转化可执行的驾驶动作。

2.2.3. Reflection

驾驶任务结束后，Reflection记录推理过程和决策序列，成功的驾驶行为会直接存储为经验，失败的驾驶经验需要进行修正后存储。这部分可以人工标注，或者自动化。

2.2.4. Limits

决策延迟：每次决策约5~10s（LLM推理和API调用）；
幻觉问题。

2.3. 总结

LLM利用常识和推理能力提升驾驶能力，但是并未对LLM进行微调，需要详细设计的prompt。此外，由于LLM是文本模型，需要将驾驶场景转化为描述文本，在推理过程中需要使用API理解环境，输出同样是决策序列文本描述，需要转化为驾驶行为指令。所以，LLM即可以与传统的模块化的系统结合，也可以和E2E系统结合作为参考，但是不能参与到训练过程中，不能针对驾驶场景训练学习。此外，存在推理速度慢和幻觉问题。

3. VLM

Learning Transferable Visual Models From Natural Language Supervision (ICML 2021)
DriveVLM: The Convergence of Autonomous Driving and Large Vision-Language Models(CoRL 2024)
DriveGPT4: Interpretable end-to-end autonomous driving via large language model(RAL 2024)
Senna: Bridging Large Vision-Language Models and End-to-End Autonomous Driving(arXiv 2024)
VLM-AD: End-to-End Autonomous Driving through Vision-Language Model Supervision(CoRL 2025)

3.1. CLIP

博客：https://openai.com/index/clip/

CLIP, a milestone image-text matching work in VLMs, captures image feature representations associated with language and achieves zero-shot transfer ability by training on a vast number of image-text pairs through contrastive learning.

--- Vision Language Models in Autonomous Driving: A Survery and Outlook

计算机视觉系统通过预定义的对象类别进行训练，需要新的标注数据才能鉴别新的对象。CLIP从互联网收集4亿个图像-文本对，从零学习图像和文本的内容的匹配关系，预训练完成后，可以实现零样本迁移。

3.1.1. 对比预训练阶段(Contrastive Pre-training)

正样本采样：同一批次内图文匹配采样作为正样本；
负样本采样：同一批次内图文不匹配采样作为负样本；
Image Encoder：将图像转换为特征向量，ResNet/ViT；
Text Encoder：将文本转换为特征向量，Transformer；
对比学习：最大化矩阵中对角元素的余弦相似度，最小化其他元素的余弦相似度；

3.1.2. 零样本分类器生成(Create Dataset Classifier)

标签文本模板化：将目标数据集的类别通过prompt转换为自然语言描述；
文本编码器嵌入：通过预训练好的本文编码器，将这些模板化描述转换为类别特征向量；

3.1.3. 零样本预测(Zero-shot Prediction)

将图像编码后，与所有的文本向量计算余弦相似度，选择相似度最高的文本原型对应的类别作为预测结果。

多数VLM或者VLA模型采用Qwen-VL作为基座模型，Qwen-VL采用OpenCLIP作为视觉编码器，而OpenCLIP则是LAION团队开发的CLIP的开源版本。

3.2. DriveVLM

DriveVLM使用Qwen-VL作为基座模型，通过使用驾驶数据集微调和prompt设计，使LLM更好的理解驾驶场景并做出决策。和传统(规则+优化)/E2E结合，使用感知结果提升LLM的空间推理能力和提升计算性能。

快慢双系统设计，如果是规则+优化方法，DriveVLM输出参考轨迹给轨迹优化器。如果是和E2E方法结合，则输出参考轨迹的token。
使用传统方案的感知模块的输出提升VLM的空间理解能力。
设计了驾驶场景的数据挖掘、标注和VLM对驾驶场景描述和分析的评估方法。

3.3. DriveGPT4

DriveGPT使用LLaMa2作为基座模型，视频、文本、车辆信号等作为输入，统一转换到text domain tokens输入给LLM，LLM输出的关于回答和控制指令的预测tokens解码成文本。

从架构中可以看到，video会抽帧image，使用预训练的CLIP编码，N帧图像再映射到文本空间，这个Projector在训练的第一个阶段使用通用视觉数据对齐到文本。在第二个训练阶段和LLM一起微调，使用自动驾驶数据，使LLM理解自动驾驶场景。

3.4. Senna

Senna论述VLMs模型的三个问题：

VLMs在精确的数值计算方面存在局限，不适合直接输出轨迹；
VLMs缺乏多帧图像理解能力，尤其是自动驾驶场景的环视图像理解；
VLMs的自动驾驶训练数据主要针对环境理解，而不是以规划为导向，并且常用两阶段微调策略并非最优策略；

因此，Senna做出三点改进：

Senna-VLM输出高层规划决策，而不是规划轨迹；
Senna-VLM针对多帧环视图像，设计Driving Vision Adapter，对图像token压缩，并设计了环视专用prompt，提升自动驾驶场景理解能力；
Senna-VLM提出三阶段训练，并对数据集设计了一系列规划导向问答。

- Mix Pre-training：其他模块参数保持冻结，使用单张图像数据训练 Driving Vision Adapter，将图像特征映射到 LLM 的特征空间。
- Driving Fine-tuning：基于规划导向的 QAs（除去 meta-action QAs）微调 Senna-VLM，输入改为多视角图像序列（surround-view）而不是单张图像，在此阶段，Senna-VLM 除 Vision Encoder 外，所有参数都参与微调。
- Planning Fine-tuning： Vision Encoder 保持冻结，使用仅 meta-action QAs 对 Senna-VLM 进一步微调，提升高层规划能力。
- Senna-E2E 的训练与推理：

- - 训练阶段：使用真实的 ground truth meta-actions 作为输入
  - 推理阶段：使用 Senna-VLM 预测的 meta-actions 作为输入

3.5. VLM-AD

VLMs在线推理耗时，因此VLM-AD将VLMs作为teacher，先离线生成推理标注，再通过辅助任务对E2E模型进行辅助监督训练，可以使E2E学习到推理过程。并且是一种通用插件，不会修改原E2E模型，并且在推理过程中无需VLMs。

3.6. 总结

VLMs可以直接对齐图像和文本，识别自动驾驶环境，但是需要进行数据挖掘、标注和prompt设计。此外，VLMs的推理耗时太大，VLMs结果只是作为一种参考。

4. VLA

OpenDriveVLA: Towards End-to-end Autonomous Driving with Large Vision Language Action Model(arXiv 2025)
LMDrive: Closed-Loop End-to-End Driving with Large Language Models(CVPR 2024)
SimLingo: Vision-Only Closed-Loop Autonomous Driving with Language-Action Alignment(CVPR 2025)
CarLLaVA: Vision language models for camera-only closed-loop driving(CVPR 2025)
ORION: A Holistic End-to-End Autonomous Driving Framework by Vision-Language Instructed Action Generation(arXiv 2025)
Discrete Diffusion for Reflective Vision-Language-Action Models in Autonomous Driving(arXiv 2025)

4.1. OpenDriveVLA

OpenSource or OpenLoop？

VLMs的空间理解能力不足，因此OpenDriveVLA构建BEV Feature，然后进行perception、map和prediction任务增加空间感知能力。

4.2. LMDrive

Two-Stage Trainning:

Vision encoder pre-training stage：BEV感知，通过监督学习训练；
Instruction-finetuning stage：冻结Vision encoder，并去掉Prediction Heads，通过监督学习训练Q-Former和Adapter。

同样的通过BEV感知增加3D空间理解能力，使用CLIP对齐的文本空间，然后对LLM预测轨迹解码。

4.3. SimLingo/CarLLaVA

两个工作都是Wayve和图宾根大学合作的，显然采用了一样的思路和架构。将前视图像编码后降采样，对齐到文本空间，然后根据Prompt排序不同模态的输入给LLM，增加MLP解码path和speed。更加像在VLMs的工作上增加了Instruction-Action训练和Action Decoder。

4.4. ORION

ORIN在使用视觉感知监督训练检测、地图和预测任务同时，增加了场景的历史信息储存和查询，增加对自动驾驶场景的空间理解能力。通过VAE对齐规划的文本空间和行动空间，增加轨迹的生成能力。

4.5. ReflectDrive

4.6. 总结

VLAs在VLMs的基础上，通过显式增加感知任务提升LLMs的自动驾驶环境的空间理解能力，通过MLP或者其他Decoder增加轨迹生成能力。VLAs/VLMs增加了数据集需求，如visual-question-answering(VQA)和instruction-action pairs。VLAs仍然面临推理的实时性和幻觉问题。

5. World Model

A Survey of World Models for Autonomous Driving(TPAMI 2025)
GAIA-2: A Controllable Multi-View Generative World Model for Autonomous Driving(arXiv 2025)
DriveDreamer: Towards Real-world-driven World Models for Autonomous Driving(ECCV 2024)
Drivedreamer-2: Llm-enhanced world models for diverse driving video generation(AAAI 2025)