理想发布会三小时，最狠的是：VLA 要上路了？！

最新推荐文章于 2025-09-28 17:29:36 发布

转载最新推荐文章于 2025-09-28 17:29:36 发布 · 188 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247673395&idx=1&sn=79cb6a5cd0df2faf7f0b578815294f30&chksm=cf9b3c0993f9d1991acbccd5a97e9c36742d99a4554e57eb6406e5ebe293e6b25cb2bdc2af85&scene=126&sessionid=0

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

端到端自动驾驶到底是啥？

昨天晚上，预热已久的理想i8终于上市，正好卡在理想成立十周年的节点。发布会的重头戏在于车，更是在于i8首发的辅助驾驶功能有大幅度升级。理想的 VLA（视觉-语言-动作模型）与i8同步发布，也成为第一款搭载 VLA 司机大模型的理想车型。

8月份，VLA就会在i8上交付。

VLA 能力的提升，集中体现在三点：更懂语义（多模态输入）、更擅长推理（思维链）、更接近人类驾驶直觉。具体表现在：

行驶中能听懂「靠边停一下」「往前走 50 米」「快一点」这类自然语言指令，并据此完成操作；
可以根据过往记忆设定特定路段的速度；
能根据语音指令找到目的地，比如「帮我找到最近的星巴克」；
在复杂路况下，它也能判断通行风险、选对道路，主动规避障碍。

总结来说，四个核心能力：空间理解能力、思维能力、沟通与记忆能力以及行为能力。

其中空间理解是视觉赋予的能力

而思维能力、沟通与记忆能力是语言模型赋予的能力，其中记忆能力还用到了RAG。下面是理想VLA司机大模型思维链输出的demo：结合了动态目标、静态元素、导航地图、空间理解等等内容。

可以说VLA是当前自动驾驶量产一个新的里程碑，业内很多公司都在布置人力研发。从E2E+VLM到VLA，技术呈现递进式的发展。最近很多小伙伴也联系到我们，其中不乏传统规控、感知、预测方向的小伙伴表示想转VLA。可是苦于技术栈涉及面太广，转行无从下手，网上也没有很好的学习资料，为此我们联合国内TOP主机厂算法专家，打造了《端到端与VLA自动驾驶小班课》！技术专家带你深入端到端与VLA算法原理与技术开发~

技术栈多？入门困难？

去年我们推出了《首个面向工业级的端到端算法与实战教程》，今年很多小伙伴反馈技术发展太快了，先前的技术方案已经不适合当下的大环境。端到端目前发展出多个领域技术的方向，需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等相关的知识。学习端到端自动驾驶，是一个一站式强化多领域知识的好机会。但这样的学习路径往往非常痛苦。同时掌握多个领域的知识已经足够困难，而各领域的论文数量繁多、知识碎片化，入门者往往还没了解各个领域就已然放弃。如何从零散论文中提炼框架、掌握领域发展趋势，是初学者的常见挑战。同时学习目标驱动导航需要结合实际任务完成闭环，但缺乏系统的实战指导，难以从理论过渡到实践。另一方面，端到端自动驾驶的研究由于缺少高质量文档，提高了入门难度。

基于这些学习过程中的挑战，我们联合业内大佬一起打造了国内最新的《端到端与VLA自动驾驶小班课》！这门课程具有以下特点：

1）直击痛点，快速入门

本课程基于Just-in-Time Learning理念，通过通俗易懂的语言和案例，帮助学员短时间内掌握核心技术栈。理解关键概念后，拓展特定领域知识将变得更加轻松。

2）构建领域框架，提升研究能力

帮助学员梳理端到端自动驾驶的研究发展脉络，掌握领域核心框架。学会将论文分类、提取创新点，形成自己的研究体系和工作经验。

3）理论结合实践，学以致用

课程配有实战环节，完成从理论到实践的完整闭环。

课程大纲如下：

这门课程讲如何展开

第一章：端到端算法介绍

第一章主要是针对端到端自动驾驶概括性的内容讲解，这一章老师会带大家盘一下端到端的发展历史，端到端这个概念是怎么来了，为什么从模块化的方法发展到端到端。一段式、二段式再到现在的VLA范式，每一种范式都有哪些优缺点，能解决什么问题，现在为什么要学习端到端。学术界和工业界都在做什么，相关的数据集、评测都有啥。在这一章节为大家一一解答~

第二章：端到端的背景知识

承接第一章的讲解，端到端的技术栈分类有很多种，那必然也涉及到很多不同的背景知识。VLA涉及大语言模型、扩散模型及强化学习、一段式端到端涉及BEV感知。因此第二章是咱们课程的重点内容，在这一章老师会非常细致的带大家学习端到端涉及到的背景知识，也为后续章节的展开奠定基础。

首先老师会带大家复习下Transformer的基本概念，扩展到视觉Transformer，接着讲解为多模态大模型奠定基础的CLIP和LLAVA；
接着详细介绍BEV感知的基础知识，自动驾驶涉及的核心感知为什么可以基于BEV来实现（3D检测/车道线/OCC/轨迹预测与规划）；
之后是扩散模型的理论知识讲解，当前基于扩散模型输出多模轨迹也是学术界和工业界追捧的热点，很多公司都在尝试落地；
然后是视觉大语言模型VLM相关的强化学习技术，RLHF是什么，为什么VLM训练需要用到RLHF以及上半年最热的GRPO，在第二章都会带大家一起学习。

总结来说，第二章的内容是未来两年求职面试频率最高的技术关键词！

第三章：二段式端到端

第三章聚焦在二段式端到端，我们首先回答一个问题：什么是二段式端到端？为什么会出现二段式端到端？接着老师会带大家学习下领域内优秀的工作：经典算法PLUTO、CVPR'25的CarPlanner和最新的工作Plan-R1。兼顾经典工作和最新的前沿进展为大家解读二段式端到端的究竟在做什么？相比一段式端到端，二段式端到端有什么优缺点。

第四章：一段式端到端与VLA

第四章是咱们课程最精华的部分。一段式端到端目前有很多子领域：基于感知的一段式（UniAD）、基于世界模型的一段式、基于扩散模型的一段式以及目前最热的基于VLA的一段式。每个子领域都是为了解决端到端的终极目标。

考虑到有刚入门的小伙伴，所以我们先从基于感知的方法讲起：领域的奠基制作UniAD和地平线VAD会和大家一起快速的过一遍，接着讲解CVPR'24中稿的PARA-Drive；

接着是基于世界模型的两篇优秀工作：AAAI'25的Drive-OccWorld以及复旦团队提出的OccLLaMA。和大家聊聊为什么要讲基于世界模型的相关方法：世界模型的应用非常广，不仅可以做场景生成，也可以做端到端，还可以做闭环仿真。所以世界模型也是近两年非常热的技术方向，通过这两篇文章的学习也是为了让大家更好的了解端到端的技术发展脉络，为从事端到端研究的小伙伴提供一些思考；

然后是基于扩散模型的端到端方法：从去年下半年开始，扩散模型的思想就被引入到多模轨迹预测中，相比单模轨迹的输出，多模轨迹可以更好的适应自动驾驶不确定的环境！扩散模型不仅可以和基于模型的方法结合，也可以和VLM相结合进而实现VLA，所以这个小节我们重点介绍几篇在业内应用最广的工作：DiffusionDrive、Diffusion Planner和吉大最新的DiffE2E，这个小节也会有配套的实战讲解 - Diffusion Planner，相信很多今年求职的小伙伴都会用到；

最后是基于VLA的端到端方法：随着大模型的飞速发展，业内很多公司都在预研新一代自动驾驶量产方案 - VLA。学术界和工业界都在发力，可以说VLA是目前端到端自动驾驶的皇冠！VLA的上限很高但也很难，也正是因为如此，业内的招聘需求也最旺盛。我们选取了小米的ORION、慕尼黑工大的OpenDriveVLA和近期最新的ReCogDrive。这一小节涉及非常多的技术：VLM、BEV、扩散模型、强化学习，所以也是基于前面几章的学习最后展开这一小节的学习。老师选择了小米的ORION作为实战，截止2025年7月，ORION开源了推理和评测模块，这个实战将为大家揭开自动驾驶VLA的神秘面纱~

第五章：课程大作业 - RLHF微调

经过前面几个章节的学习，同学们已经对端到端自动驾驶的各个子领域有一定了解，并且可以实际运行代码了。在大作业部分，老师选择了RLHF微调进行实战。预训练模块如何搭建、强化学习模块如何搭建并如何实际进行实验，这个章节将会提供参考答案和实际的效果展示。并且RLHF是可以迁移到VLA相关算法中的，具有非常好的延展性~