基于模仿学习的端到端决定了它的上限不可能超越人类

最新推荐文章于 2025-12-02 11:29:21 发布

转载最新推荐文章于 2025-12-02 11:29:21 发布 · 201 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247680975&idx=1&sn=dbf94d11128b6ddf2fbe4b6993fe08be&chksm=cfbf06acb8e57cd40d7445bbcb9458ba3810c66cd5004a6b0166b00843aabb2f695b8b895436&scene=126&sessionid=0

文章标签：

#学习

基于模仿学习的端到端本质只是在模仿人类，对物理世界的理解并不透彻。

因此VLA提供了这样一种可能，从模仿人类到成为人类。

业内这两年追捧的端到端，标志着智能驾驶从规则驱动向数据驱动的根本转变。但在实际量产中，端到端虽然提供了一个打通上下游视角的能力，但面对复杂的困难场景仍然受限。如果在自动驾驶公司工作过，就知道量产模型的迭代仍然被限制在无限corner case的循环中。这里也借用李想AI Talk的一段话：

“端到端比较像什么呢？端到端比较像哺动物的智能，比如像马戏团里的一些动物，向人类学习怎么骑自行车。它学了人类的这些行为，人类怎么去做出各种的行为的开车。但是它对物理世界并不理解，它只是看到了一个什么样的三维的图像，知道自身的速度，并给出了一个什么样的轨迹，所以它应付大部分的泛化是没有问题的，去面对它从来没有学到的、特别复杂的，其实就会遇到问题。所以这时候我们也会配合，视觉语言模型 VLM，然后放进来。但是我们能够用到的视觉语言模型这些开源的，用在交通上的能力都非常的有限，所以只能起到一些非常有限的辅助的一个作用。我觉得第二个阶段就是哺乳动物智能运作的一个方式。”

VLA本质上也可以算作是一种端到端，不过更加直白和干净，很多方法也取消了传统端到端的复杂的3D感知任务。借鉴VLM更强大的通用泛化能力，除了任务更简洁，VLA更重要的还是提供了一种解决corner case的可能性。

而随着学术界和工业界的目光投向端到端这个技术领域，我们发现了很多问题。自动驾驶VLA的技术栈仍然没有收敛！一系列算法如雨后春笋般冒出：

自动驾驶VLA是从何而来，VLM作为解释器有哪些经典和前沿的算法？
模块化VLA如何构建，一体化VLA又是什么，他们之间有什么区别和联系？
现在提到最多的思维链应该划分到哪个范式下，我应该如何去学习？
想做自己的VLA数据集，如何构建？学术界有哪些方法可以参考？
我想从数据集定义，到模型搭建/训练，再一步步提升网络性能，有没有教程？

带着这一系列的问题，我们筹备了《自动驾驶VLA与大模型实战课程》

技术栈多？入门困难？

前一段时间我们推出了《端到端与VLA自动驾驶小班课》，这门课侧重在端到端自动驾驶的技术栈梳理，同学们的反馈很好。所以很多同学联系自动驾驶之心想学习更多关于VLA的前沿知识！

因此我们联合国内外的教研团队共同打造了《自动驾驶VLA实战教程》，针对自动驾驶VLA的技术栈进行了全面的梳理。学习自动驾驶VLA，是一个一站式强化多领域知识的好机会。视觉感知、语言模块、动作模块，配套大模型的前沿技术（RAG/CoT/强化学习/MoE）等等，涉及的技术栈非常广。但这样的学习路径往往非常痛苦。同时掌握多个领域的知识已经足够困难，而各领域的论文数量繁多、知识碎片化，入门者往往还没了解各个领域就已然放弃。如何从零散论文中提炼框架、掌握领域发展趋势，是初学者的常见挑战。同时学习自动驾驶VLA需要结合实际任务完成闭环，但缺乏系统的实战指导，难以从理论过渡到实践。另一方面，自动驾驶VLA的研究由于缺少高质量文档，提高了入门难度。

基于这些学习过程中的挑战，我们联合学术界的大佬一起打造了国内最新的《自动驾驶VLA实战课程》！这门课程具有以下特点：

1）直击痛点，快速入门

本课程基于Just-in-Time Learning理念，通过通俗易懂的语言和案例，帮助学员短时间内掌握核心技术栈。理解关键概念后，拓展特定领域知识将变得更加轻松。

2）构建领域框架，提升研究能力

帮助学员梳理自动驾驶VLA的研究发展脉络，掌握领域核心框架。学会将论文分类、提取创新点，形成自己的研究体系和工作经验。

3）理论结合实践，学以致用

课程配有实战环节，完成从理论到实践的完整闭环。

课程大纲如下：

早鸟优惠！扫码学习课程

这门课程讲如何展开

第一章：自动驾驶VLA算法介绍

第一章主要是针对自动驾驶VLA概括性的内容讲解，这一章老师会带大家复盘一下VLA算法的概念及发展历史，并带大家拆解一下自动驾驶VLA这个任务。随后详细介绍目前学术界和工业界有哪些开源的BenchMark和常见的评测指标。学完这一章节，同学们将对自动驾驶VLA这个任务有个整体的了解，方便后续章节的深入学习。

第二章：VLA的算法基础

承接第一章，在对VLA有了概括性的了解后，老师将会带着大家学习VLA相关的算法基础：

视觉感知涉及的BEV感知/动静态检测/OCC及轨迹预测；
语言模型涉及的序列建模/Transformer，以及建立vision-language的模态对齐的算法等；
动作模块的基础知识，判别式解码器和生成式解码器是如何输出action的；

前三个小节聚焦于Vision、Language和Action三个模块的基础知识，第四个小节将展开讲解大模型与自动驾驶VLA如何结合，这个小节会讲到：

涉及prompt engineering和in-context learning的RAG和CoT技术；
监督微调SFT和强化学习RL如何应用到自动驾驶VLA中；
混合专家模型的技术原理及其在自动驾驶中的应用。

前面四个小节已经为大家讲解了VLA算法的核心基础，我们了解到不少同学对大模型的部署和使用很感兴趣，因此我们专门扩展了一个小节讲解常用开源大模型的部署和使用：以Qwen 2.5VL-72为例，如何使用transformers或ms-swift本地部署大模型。

为了更好的让大家理解VLA这个任务，我们设计了自动驾驶VLA数据集制作专题，对有兴趣在VLA这个方向深造的同学十分重要，都是干货！

场景理解QA数据如何设计；
检测Grounding数据如何设计；
Planning数据如何设计；
思维链数据如何设计。

第三章：VLM作为自动驾驶解释器

第三章进入到咱们课程算法部分讲解的部分，自动驾驶VLA这个概念提出以前，VLM大多作为解释器参与到自动驾驶的场景理解中。这个章节我们会讲解几篇经典和最新的算法：DriveGPT4、TS-VLM、DynRsl-VLM、SENNA。重点讲解这些算法的动机、网络结构以及算法核心。目前VLM作为自动驾驶解释器仍然还有很多方向可以探索，很适合有意愿从事自动驾驶VLM/VLA科研学习的同学进一步深入学习。

第四章：模块化&一体化VLA

第四章正式进入到自动驾驶VLA的部分。这一章节聚焦在模块化和一体化VLA这个领域，随着VLA研究的发展，Language从被动的场景描述演变为模块化架构中的主动规划组件。模块化VLA的方法强调多阶段的pipeline（感知→语言→规划→控制），语言模型的输入和输出开始为规划决策提供信息，而不仅仅是对驾驶环境的描述。一体化VLA直接连接动作解码器（如扩散模型或自回归控制器）。省略语言到规划的中间步骤，实现感知→控制的端到端映射。通过单次前向传播，直接将传感器输入（视觉+语言）映射为控制动作（如轨迹或转向指令），消除模块间耦合延迟。这一章节，我们重点讲解：

慕尼黑工大提出的OpenDriveVLA；
上海交通大学提出的DriveMoE；
博世和清华AIR提出的DiffVLA；
UC Berkeley和Waymo中稿CVPR2025的S4-Driver；

第四章配套了实战的代码学习，我们选取了华科和小米最新提出的ReCogDrive！ReCogDrive包含了预训练、模仿学习训练和强化学习训练三个阶段。涵盖了自动驾驶VLA训练的主流范式，非常适合小白学习。ReCogDrive涉及的技术栈包含预训练、模仿学习、强化学习GRPO、扩散模型轨迹输出等等。

第五章：推理增强VLA

第五章则聚焦在推理增强VLA子领域上。自动驾驶大模型的趋势由解释转向了长思维链推理、记忆和交互，将VLM/LLM置于控制的中心。相比之前的算法，新增推理模块（如Chain-of-Thought、记忆体、工具调用），生成决策依据同时，根据决策依据再输出动作。这类方法的特点是行动与解释并行：同步输出控制信号和自然语言解释（如ORION的“QT-Former”记忆体+语言解释）。在端到端控制流中显式嵌入语言推理层，支持长时序规划、因果解释及多模态交互。在这一章节，我们重点讲解：

华科&小米 ICCV2025中稿的ORION；
阿里&西交团队提出的FutureSightDrive；
UCLA提出的AutoVLA；
中科院和华为诺亚提出的Drive-R1；

第五章配套了实战的代码学习，我们选取了清华AIR和博世提出的Impromptu VLA！Impromptu VLA基于开源Qwen2.5 VL进行数据集的制作、训练和推理。非常适合想在通用大模型上研究自动驾驶任务的同学。

第六章：大作业

为了让同学们更好的理解和掌握自动驾驶VLA，第六章的大作业我们从网络构建开始，基于ms-swift框架，自定义数据集和加载模型，开启自己的训练任务并进行微调，并提供V-L-A各部分的代码解读以及可修改优化的demo。这个章节注重的是同学们自己动手实操，对于未来有计划在自动驾驶VLA方向继续深造的硕博，可以重点关注。