从端到端到VLA,自动驾驶量产开始往这个方向发展...

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

都在说端到端?懂行的有几个

端到端自动驾驶作为目前智驾量产的核心算法,自从去年E2E+VLM的双系统架构取得成功以来,已经成为当下国内主流新能源主机厂抢占的高地,上半年随着VLA的概念开始掀起新一轮的量产方案迭代。自动驾驶之心了解到,3-5年的相关VLM/VLA的岗位薪资竟高达百万年薪,月薪更是高达70K!

最近很多小伙伴也联系我们,说想转到自动驾驶大模型、端到端的相关岗位。目前来看端到端已经衍生出很多技术流派,我们和业内的算法专家交流得到反馈,很少有人能讲清楚端到端到底是啥?什么是一段式/什么是二段式?一段式又分为哪些子领域,下面这个视频为大家一一解答~

随着学术界和工业界的目光投向端到端这个技术领域,我们发现了很多问题。UniAD是端到端的最终解吗?显然不是!一系列算法如雨后春笋般冒出:

  • 以PLUTO为代表的二段式端到端思考如何用模型实现自车规划;

  • 以UniAD为代表的基于感知的一段式端到端不断发展进步;

  • 以OccWorld为代表的基于世界模型的一段式端到端开创了新流派;

  • 以DiffusionDrive为代表的基于扩散模型的一段式端到端开创了多模轨迹的新时代;

  • 随后基于VLM的一系列方法不断进化出自动驾驶VLA方向,开启了大模型时代下的端到端;

为此我们筹备了《端到端与VLA自动驾驶小班课》!技术专家带你深入端到端与VLA算法开发~

技术栈多?入门困难?

去年我们推出了《首个面向工业级的端到端算法与实战教程》,今年很多小伙伴反馈技术发展太快了,先前的技术方案已经不适合当下的大环境。端到端目前发展出多个领域技术的方向,需要掌握多模态大模型、BEV感知、强化学习、视觉Transformer、扩散模型等相关的知识。学习端到端自动驾驶,是一个一站式强化多领域知识的好机会。但这样的学习路径往往非常痛苦。同时掌握多个领域的知识已经足够困难,而各领域的论文数量繁多、知识碎片化,入门者往往还没了解各个领域就已然放弃。如何从零散论文中提炼框架、掌握领域发展趋势,是初学者的常见挑战。同时学习目标驱动导航需要结合实际任务完成闭环,但缺乏系统的实战指导,难以从理论过渡到实践。另一方面,端到端自动驾驶的研究由于缺少高质量文档,提高了入门难度。

基于这些学习过程中的挑战,我们联合业内大佬一起打造了国内最新的《端到端与VLA自动驾驶小班课》!这门课程具有以下特点:

1)直击痛点,快速入门

本课程基于Just-in-Time Learning理念,通过通俗易懂的语言和案例,帮助学员短时间内掌握核心技术栈。理解关键概念后,拓展特定领域知识将变得更加轻松。

2)构建领域框架,提升研究能力

帮助学员梳理端到端自动驾驶的研究发展脉络,掌握领域核心框架。学会将论文分类、提取创新点,形成自己的研究体系和工作经验。

3)理论结合实践,学以致用

课程配有实战环节,完成从理论到实践的完整闭环。

课程大纲如下:

这门课程讲如何展开

第一章:端到端算法介绍

第一章主要是针对端到端自动驾驶概括性的内容讲解,这一章老师会带大家盘一下端到端的发展历史,端到端这个概念是怎么来了,为什么从模块化的方法发展到端到端。一段式、二段式再到现在的VLA范式,每一种范式都有哪些优缺点,能解决什么问题,现在为什么要学习端到端。学术界和工业界都在做什么,相关的数据集、评测都有啥。在这一章节为大家一一解答~

第二章:端到端的背景知识

承接第一章的讲解,端到端的技术栈分类有很多种,那必然也涉及到很多不同的背景知识。VLA涉及大语言模型、扩散模型及强化学习、一段式端到端涉及BEV感知。因此第二章是咱们课程的重点内容,在这一章老师会非常细致的带大家学习端到端涉及到的背景知识,也为后续章节的展开奠定基础。

  • 首先老师会带大家复习下Transformer的基本概念,扩展到视觉Transformer,接着讲解为多模态大模型奠定基础的CLIP和LLAVA;

  • 接着详细介绍BEV感知的基础知识,自动驾驶涉及的核心感知为什么可以基于BEV来实现(3D检测/车道线/OCC/轨迹预测与规划);

  • 之后是扩散模型的理论知识讲解,当前基于扩散模型输出多模轨迹也是学术界和工业界追捧的热点,很多公司都在尝试落地;

  • 然后是视觉大语言模型VLM相关的强化学习技术,RLHF是什么,为什么VLM训练需要用到RLHF以及上半年最热的GRPO,在第二章都会带大家一起学习。

总结来说,第二章的内容是未来两年求职面试频率最高的技术关键词!

第三章:二段式端到端

第三章聚焦在二段式端到端,我们首先回答一个问题:什么是二段式端到端?为什么会出现二段式端到端?接着老师会带大家学习下领域内优秀的工作:经典算法PLUTO、CVPR'25的CarPlanner和最新的工作Plan-R1。兼顾经典工作和最新的前沿进展为大家解读二段式端到端的究竟在做什么?相比一段式端到端,二段式端到端有什么优缺点。

第四章:一段式端到端与VLA

第四章是咱们课程最精华的部分。一段式端到端目前有很多子领域:基于感知的一段式(UniAD)、基于世界模型的一段式、基于扩散模型的一段式以及目前最热的基于VLA的一段式。每个子领域都是为了解决端到端的终极目标。

  • 考虑到有刚入门的小伙伴,所以我们先从基于感知的方法讲起:领域的奠基制作UniAD和地平线VAD会和大家一起快速的过一遍,接着讲解CVPR'24中稿的PARA-Drive;

  • 接着是基于世界模型的两篇优秀工作:AAAI'25的Drive-OccWorld以及复旦团队提出的OccLLaMA。和大家聊聊为什么要讲基于世界模型的相关方法:世界模型的应用非常广,不仅可以做场景生成,也可以做端到端,还可以做闭环仿真。所以世界模型也是近两年非常热的技术方向,通过这两篇文章的学习也是为了让大家更好的了解端到端的技术发展脉络,为从事端到端研究的小伙伴提供一些思考;

  • 然后是基于扩散模型的端到端方法:从去年下半年开始,扩散模型的思想就被引入到多模轨迹预测中,相比单模轨迹的输出,多模轨迹可以更好的适应自动驾驶不确定的环境!扩散模型不仅可以和基于模型的方法结合,也可以和VLM相结合进而实现VLA,所以这个小节我们重点介绍几篇在业内应用最广的工作:DiffusionDrive、Diffusion Planner和吉大最新的DiffE2E,这个小节也会有配套的实战讲解 - Diffusion Planner,相信很多今年求职的小伙伴都会用到;

  • 最后是基于VLA的端到端方法:随着大模型的飞速发展,业内很多公司都在预研新一代自动驾驶量产方案 - VLA。学术界和工业界都在发力,可以说VLA是目前端到端自动驾驶的皇冠!VLA的上限很高但也很难,也正是因为如此,业内的招聘需求也最旺盛。我们选取了小米的ORION、慕尼黑工大的OpenDriveVLA和近期最新的ReCogDrive。这一小节涉及非常多的技术:VLM、BEV、扩散模型、强化学习,所以也是基于前面几章的学习最后展开这一小节的学习。老师选择了小米的ORION作为实战,截止2025年7月,ORION开源了推理和评测模块,这个实战将为大家揭开自动驾驶VLA的神秘面纱~

第五章:课程大作业 - RLHF微调

经过前面几个章节的学习,同学们已经对端到端自动驾驶的各个子领域有一定了解,并且可以实际运行代码了。在大作业部分,老师选择了RLHF微调进行实战。预训练模块如何搭建、强化学习模块如何搭建并如何实际进行实验,这个章节将会提供参考答案和实际的效果展示。并且RLHF是可以迁移到VLA相关算法中的,具有非常好的延展性~

讲师介绍

Jason, C9本科+QS50 PhD,已发表CCF-A论文2篇,CCF-B论文若干。现任国内TOP主机厂算法专家,目前从事端到端、大模型、世界模型等前沿算法的预研和量产,并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付,拥有丰富的端到端算法研发和实战经验。

面向人群

  • 需要自备GPU,推荐算力在4090及以上;

  • 一定的自动驾驶领域基础,熟悉自动驾驶的基本模块;

  • 了解transformer大模型、强化学习、BEV感知等技术的基本概念;

  • 一定的概率论和线性代数基础,熟悉常用的数学运算;

  • 具备一定的python和pytorch语言基础;

学后收获

这门课程是首个面向端到端自动驾驶进阶实战教程,我们期望能够推动端到端在工业界中的落地,助力更多想要加入到自动驾驶行业的同学真正理解端到端。

  • 我们期望学完本课程:学完能够达到1年左右端到端自动驾驶算法工程师水平;

  • 掌握端到端技术框架,涵盖一段式、两段式、世界模型、扩散模型等方法;

  • 对BEV感知、多模态大模型、强化学习、扩散模型等关键技术有更深刻的了解;

  • 可复现扩散模型、VLA等主流算法框架;

  • 能够将所学应用到项目中,真正搞懂如何设计自己的端到端模型;

  • 无论是实习、校招、社招都能从中受益;

课程进度安排

课程开课时间:8.15号,预计三个月结课。离线视频教学,vip群内答疑+三次线上答疑;

开始解锁时间

对应章节

8.01

第一章

8.15

第二章

8.30

第三章

9.15

第四章

10.30

第五章

课程咨询

扫码学习课程

更多内容咨询小助理

### 自动驾驶技术详解 #### 大型语言模型在自动驾驶中的应用 当前,学术界和工业界的研讨会上鼓励研究人员探索如何利用大型语言模型来改进自动驾驶系统[^1]。这类研究旨在开发更加智能化的决策机制和服务功能。 #### 动作预测与轨迹规划 对于未来的驾驶行为建模而言,重要的是要避免让模型简单地重复过去的行为模式;相反,应该专注于基于实时观测来进行有效的路径规划。具体来说,通过预测帧间的相对移动而非长时间跨度内的绝对位置变化,可以更好地适应动态交通状况并提高安全性。这种做法涉及到了对车辆运动参数(如纵向位移、侧向位移及方向角改变量)进行离散化处理,并将其转换成一系列可被机器理解的操作令牌[^2]。 #### 视觉语言模型的发展及其影响 随着ViT (Vision Transformer) 和 CLIP 的推出,视觉语言模型成为了一个热门话题,在计算机视觉领域引发了深刻变革。特别是在最近举办的 CVPR '24 自动驾驶挑战赛期间,众多团队提交了关于增强环境感知能力的新颖解决方案。值得注意的是,“PromptKD” 提供了一种新颖的知识蒸馏方式,它能够在保持原有性能水平的同时显著减小 VLMs 的规模[^3]。 #### 预训练策略的有效性评估 当涉及到迁移学习时,某些先进的框架展示了其优越之处——例如 Octo 模型不仅拥有更大的训练数据集而且还能有效地应用于不同场景下的快速调整过程之中。尽管如此,也有其他几种流行的预训练方法可供选择,比如那些依赖于已有的高质量图像特征提取器作为基础组件构建而成的技术路线图[^4]。 ```python def predict_relative_trajectory(current_state, observations): """ Predict the relative trajectory based on current state and new observations. Args: current_state (dict): Current vehicle status including position, velocity etc. observations (list of dict): A list of observed states from sensors. Returns: tuple: Relative changes in longitudinal translation, lateral translation, yaw rotation. """ # Placeholder implementation details here... pass ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值