世界模型与自动驾驶：最新算法&实战项目（特斯拉、视频、OCC等）-优快云博客

点击下方卡片，关注“自动驾驶之心”公众号

世界模型，近一年自动驾驶学术界和工业界的热词。很多小伙伴咨询柱哥，有没有一门系统讲解世界模型和自动驾驶的精品课程，筹备了很久终于和大家见面！

我们联合工业界大佬共同开展，先前的《端到端与VLA自动驾驶小班课》备受大家好评，因此我们进一步推出这门世界模型小班课，课程聚焦于通用世界模型、视频生成、OCC生成等世界模型算法，涵盖特斯拉世界模型、李飞飞团队Marble等。欢迎大家加入学习~

早鸟优惠！开课即止~

讲师介绍

Jason：C9本科+QS50 PhD，已发表CCF-A论文2篇，CCF-B论文若干。现任国内TOP主机厂算法专家，目前从事端到端、大模型、世界模型等前沿算法的预研和量产，并已主持和完成多项自动驾驶感知和端到端算法的产品量产交付，拥有丰富的端到端算法研发和实战经验。

课程大纲

这门课程讲如何展开

第一章：世界模型介绍

第一章主要针对自动驾驶世界模型概括性的内容讲解。这一章老师会先复盘世界模型和端到端自动驾驶的联系，接着讲解世界模型的发展历史以及当下的应用案例。然后介绍世界模型有哪些流派：纯仿真的世界模型、仿真+Planning、生成传感器输入、生成感知结果等等流派。每一种流派在当前业界的应用，能解决什么问题，处于自驾的哪个环节。学术界和工业界都在做什么，相关的数据集、评测都有啥。在这一章节为大家一一解答~

第二章：世界模型的背景知识

世界模型的技术栈涉及十分广泛，第二章主要讲解世界模型的基础知识。我们从世界模型的场景表征开始，进一步扩展到Transformer、BEV感知等，在这一章老师会非常细致的带大家学习世界模型涉及到的背景知识，也为后续章节的展开奠定基础。

首先老师会带大家复习下Transformer的基本概念，扩展到视觉Transformer，接着讲解为多模态大模型奠定基础的CLIP和LLAVA；
接着详细介绍BEV感知的基础知识，以及世界模型相关工作中最常见的占用网络Occupancy Network；
之后是扩散模型的理论知识讲解，当前基于扩散模型输出多模轨迹也是学术界和工业界追捧的热点，很多公司都在尝试落地；
然后是世界模型中长提的闭环仿真，NeRF和3DGS，老师重点带大家梳理下核心概念，方便同学们后续自己扩展；
最后讲解其他生成式模型，像VAE、GAN以及Next Token Prediction都是比较常见的生成式方法；

总结来说，第二章的内容是当下世界模型求职面试频率最高的技术关键词！

第三章：通用世界模型探讨

第三章聚焦在大家最关心的通用世界模型和最近自驾的热门工作。李飞飞团队的Marble、DeepMind提出的Genie 3、Meta团队最新的JEPA以及导航世界模型，还有最近业界讨论很广泛的VLA+世界模型算法 - DriveVLA-W0 和特斯拉ICCV上最新分享的世界模型模拟器。Jason老师会把这些模型的来龙去脉、核心技术以及设计理念都会给大家通透的讲解。

第四章：基于视频生成的世界模型

第四章聚焦在视频生成类的世界模型算法上，也是目前学术界和工业界研究最多的领域。我们从Wayve的经典工作GAIA-1 & GAIA-2开始讲解，扩展到CVR'25 上交的UniScene、商汤的OpenDWM、中科大ICCV'25的工作InstaDrive。兼顾经典工作和最新的前沿进展为大家呈现视频生成类世界模型的领域进展。实战我们选取了商汤开源的OpenDWM为大家细致展开。