基于模仿学习的端到端本质只是在模仿人类,对物理世界的理解并不透彻。
因此VLA提供了这样一种可能,从模仿人类到成为人类。
业内这两年追捧的端到端,标志着智能驾驶从规则驱动向数据驱动的根本转变。但在实际量产中,端到端虽然提供了一个打通上下游视角的能力,但面对复杂的困难场景仍然受限。如果在自动驾驶公司工作过,就知道量产模型的迭代仍然被限制在无限corner case的循环中。这里也借用李想AI Talk的一段话:
“端到端比较像什么呢?端到端比较像哺动物的智能,比如像马戏团里的一些动物,向人类学习怎么骑自行车。它学了人类的这些行为,人类怎么去做出各种的行为的开车。但是它对物理世界并不理解,它只是看到了一个什么样的三维的图像,知道自身的速度,并给出了一个什么样的轨迹,所以它应付大部分的泛化是没有问题的,去面对它从来没有学到的、特别复杂的,其实就会遇到问题。所以这时候我们也会配合,视觉语言模型 VLM,然后放进来。但是我们能够用到的视觉语言模型这些开源的,用在交通上的能力都非常的有限,所以只能起到一些非常有限的辅助的一个作用。我觉得第二个阶段就是哺乳动物智能运作的一个方式。”
VLA本质上也可以算作是一种端到端,不过更加直白和干净,很多方法也取消了传统端到端的复杂的3D感知任务。借鉴VLM更强大的通用泛化能力,除了任务更简洁,VLA更重要的还是提供了一种解决corner case的可能性。
而随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。自动驾驶VLA的技术栈仍然没有收敛!一系列算法如雨后春笋般冒出:
自动驾驶VLA是从何而来,VLM作为解释器有哪些经典和前沿的算法?
模块化VLA如何构建,一体化VLA又是什么,他们之间有什么区别和联系?
现在提到最多的思维链应该划分到哪个范式下,我应该如何去学习?
想做自己的VLA数据集,如何构建?学术界有哪些方法可以参考?
我想从数据集定义,到模型搭建/训练,再一步步提升网络性能,有没有教程?
带着这一系列的问题,我们筹备了《自动驾驶VLA与大模型实战课程》

技术栈多?入门困难?
前一段时间我们推出了《端到端与VLA自动驾驶小班课》,这门课侧重在端到端自动驾驶的技术栈梳理,同学们的反馈很好。所以很多同学联系自动驾驶之心想学习更多关于VLA的前沿知识!
因此我们联合国内外的教研团队共同打造了《自动驾驶VLA实战教程》,针对自动驾驶VLA的技术栈进行了全面的梳理。学习自动驾驶VLA,是一个一站式强化多领域知识的好机会。视觉感知、语言模块、动作模块,配套大模型的前沿技术(RAG/CoT/强化学习/MoE)等等,涉及的技术栈非常广。但这样的学习路径往往非常痛苦。同时掌握多个领域的知识已经足够困难,而各领域的论文数量繁多、知识碎片化,入门者往往还没了解各个领域就已然放弃。如何从零散论文中提炼框架、掌握领域发展趋势,是初学者的常见挑战。同时学习自动驾驶VLA需要结合实际任务完成闭环,但缺乏系统的实战指导,难以从理论过渡到实践。另一方面,自动驾驶VLA的研究由于缺少高质量文档,提高了入门难度。
基于这些学习过程中的挑战,我们联合学术界的大佬一起打造了国内最新的《自动驾驶VLA实战课程》!这门课程具有以下特点:
1)直击痛点,快速入门
本课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈。理解关键概念后,拓展特定领域知识将变得更加轻松。
2)构建领域框架,提升研究能力
帮助学员梳理自动驾驶VLA的研究发展脉络,掌握领域核心框架。学会将论文分类、提取创新点,形成自己的研究体系和工作经验。
3)理论结合实践,学以致用
课程配有实战环节,完成从理论到实践的完整闭环。
课程大纲如下:

早鸟优惠!扫码学习课程
这门课程讲如何展开
第一章:自动驾驶VLA算法介绍
第一章主要是针对自动驾驶VLA概括性的内容讲解,这一章老师会带大家复盘一下VLA算法的概念及发展历史,并带大家拆解一下自动驾驶VLA这个任务。随后详细介绍目前学术界和工业界有哪些开源的BenchMark和常见的评测指标。学完这一章节,同学们将对自动驾驶VLA这个任务有个整体的了解,方便后续章节的深入学习。
第二章:VLA的算法基础
承接第一章,在对VLA有了概括性的了解后,老师将会带着大家学习VLA相关的算法基础:
视觉感知涉及的BEV感知/动静态检测/OCC及轨迹预测;
语言模型涉及的序列建模/Transformer,以及建立vision-language的模态对齐的算法等;
动作模块的基础知识,判别式解码器和生成式解码器是如何输出action的;
前三个小节聚焦于Vision、Language和Action三个模块的基础知识,第四个小节将展开讲解大模型与自动驾驶VLA如何结合,这个小节会讲到:
涉及prompt engineering和in-context learning的RAG和CoT技术;
监督微调SFT和强化学习RL如何应用到自动驾驶VLA中;
混合专家模型的技术原理及其在自动驾驶中的应用。
前面四个小节已经为大家讲解了VLA算法的核心基础,我们了解到不少同学对大模型的部署和使用很感兴趣,因此我们专门扩展了一个小节讲解常用开源大模型的部署和使用:以Qwen 2.5VL-72为例,如何使用transformers或ms-swift本地部署大模型。
为了更好的让大家理解VLA这个任务,我们设计了自动驾驶VLA数据集制作专题,对有兴趣在VLA这个方向深造的同学十分重要,都是干货!
场景理解QA数据如何设计;
检测Grounding数据如何设计;
Planning数据如何设计;
思维链数据如何设计。
第三章:VLM作为自动驾驶解释器
第三章进入到咱们课程算法部分讲解的部分,自动驾驶VLA这个概念提出以前,VLM大多作为解释器参与到自动驾驶的场景理解中。这个章节我们会讲解几篇经典和最新的算法:DriveGPT4、TS-VLM、DynRsl-VLM、SENNA。重点讲解这些算法的动机、网络结构以及算法核心。目前VLM作为自动驾驶解释器仍然还有很多方向可以探索,很适合有意愿从事自动驾驶VLM/VLA科研学习的同学进一步深入学习。
第四章:模块化&一体化VLA
第四章正式进入到自动驾驶VLA的部分。这一章节聚焦在模块化和一体化VLA这个领域,随着VLA研究的发展,Language从被动的场景描述演变为模块化架构中的主动规划组件。模块化VLA的方法强调多阶段的pipeline(感知→语言→规划→控制),语言模型的输入和输出开始为规划决策提供信息,而不仅仅是对驾驶环境的描述。一体化VLA直接连接动作解码器(如扩散模型或自回归控制器)。省略语言到规划的中间步骤,实现感知→控制的端到端映射。通过单次前向传播,直接将传感器输入(视觉+语言)映射为控制动作(如轨迹或转向指令),消除模块间耦合延迟。这一章节,我们重点讲解:
慕尼黑工大提出的OpenDriveVLA;
上海交通大学提出的DriveMoE;
博世和清华AIR提出的DiffVLA;
UC Berkeley和Waymo中稿CVPR2025的S4-Driver;
第四章配套了实战的代码学习,我们选取了华科和小米最新提出的ReCogDrive!ReCogDrive包含了预训练、模仿学习训练和强化学习训练三个阶段。涵盖了自动驾驶VLA训练的主流范式,非常适合小白学习。ReCogDrive涉及的技术栈包含预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等等。
第五章:推理增强VLA
第五章则聚焦在推理增强VLA子领域上。自动驾驶大模型的趋势由解释转向了长思维链推理、记忆和交互,将VLM/LLM置于控制的中心。相比之前的算法,新增推理模块(如Chain-of-Thought、记忆体、工具调用),生成决策依据同时,根据决策依据再输出动作。这类方法的特点是行动与解释并行:同步输出控制信号和自然语言解释(如ORION的“QT-Former”记忆体+语言解释)。在端到端控制流中显式嵌入语言推理层,支持长时序规划、因果解释及多模态交互。在这一章节,我们重点讲解:
华科&小米 ICCV2025中稿的ORION;
阿里&西交团队提出的FutureSightDrive;
UCLA提出的AutoVLA;
中科院和华为诺亚提出的Drive-R1;
第五章配套了实战的代码学习,我们选取了清华AIR和博世提出的Impromptu VLA!Impromptu VLA基于开源Qwen2.5 VL进行数据集的制作、训练和推理。非常适合想在通用大模型上研究自动驾驶任务的同学。
第六章:大作业
为了让同学们更好的理解和掌握自动驾驶VLA,第六章的大作业我们从网络构建开始,基于ms-swift框架,自定义数据集和加载模型,开启自己的训练任务并进行微调,并提供V-L-A各部分的代码解读以及可修改优化的demo。这个章节注重的是同学们自己动手实操,对于未来有计划在自动驾驶VLA方向继续深造的硕博,可以重点关注。
讲师介绍
咖喱,清华大学硕士生,在ICCV/IROS/EMNLP/Nature Communications发表论文若干篇。目前从事多模态感知、自动驾驶VLA、大模型Agent等前沿算法的预研,并已主持和完成多项自动驾驶感知和大模型框架工具,拥有丰富的自动驾驶、大模型研发和实战经验。
Max,QS30高校博士在读,在EMNLP、IROS、ICCV、AISTATS等国际顶级会议发表多篇论文,研究方向涵盖多模态大模型与自动驾驶VLA等前沿领域。长期维护GitHub上多个自动驾驶与计算机视觉开源项目,总Star数已超过2k,具备扎实的多模态大模型研发能力与丰富的实战经验。
Eric,清华大学硕士生,在RAL/IROS/EMNLP发表论文若干篇。目前从事在线建图感知、自动驾驶VLA、大模型Agent等前沿算法的预研,拥有丰富的自动驾驶、大模型研发和实战经验。
学习要求
需要自备GPU,推荐算力在4090及以上;
一定的自动驾驶领域基础,熟悉自动驾驶的基本模块;
了解transformer大模型、强化学习、BEV感知等技术的基本概念;
一定的概率论和线性代数基础,熟悉常用的数学运算;
具备一定的python和pytorch语言基础;
学后收获
这门课程是国内首个自动驾驶VLA进阶实战教程,我们期望能够推动自动驾驶VLA在学术界和工业界中的发展,助力更多想要加入到自动驾驶行业的同学真正理解VLA。
我们期望学完本课程:学完能够彻底理解自动驾驶VLA的当前进展,掌握前沿VLA的算法核心;
掌握VLA的三大子领域:作为解释器的VLM、模块化&一体化VLA及推理增强VLA;
对视觉感知、多模态大模型、强化学习等关键的前沿人工智能技术有更深刻的了解;
可复现VLA主流算法,适用于后续科研学习及工程落地;
能够将所学应用到项目中,真正搞懂如何设计自己的VLA模型;
无论是实习、校招、社招都能从中受益;
课程进度安排
课程开课时间:10.20日,预计两个半月结课。离线视频教学,vip群内答疑+三次线上答疑;
开始解锁时间 | 对应章节 |
|---|---|
10.20 | 第一章 |
10.27 | 第二章 |
11.17 | 第三章 |
12.01 | 第四章 |
12.15 | 第五章 |
12.29 | 第六章 |
课程咨询
早鸟优惠!扫码学习课程
更多内容咨询小助理
2万+

被折叠的 条评论
为什么被折叠?



