Tesla终于分享点东西了，世界模型和闭环评测都强的可怕......

最新推荐文章于 2025-10-28 08:00:52 发布

转载最新推荐文章于 2025-10-28 08:00:52 发布 · 329 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247683901&idx=1&sn=edb415347ce1e8f2d1979c40c05a195b&chksm=cf565f83b5f137819d2436f046a45e616c15cf3a4fbc8930f025635131fceee6afb3d7bb92ad&scene=126&sessionid=0

作者 | 昂昂昂@知乎编辑 | 自动驾驶之心

原文链接：https://zhuanlan.zhihu.com/p/1964796069071296046

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

本文只做学术分享，如有侵权，联系删文

终于，终于啊，特斯拉终于分享点东西了。。。

来看看特斯拉说了点什么~

首先说了下特斯拉的架构，一个大模型，使用了大量的数据，这两点不用说大家也知道。使用了large context，应该是使用了长视频。同时受益于神经网络得计算是固定时间的，不像传统pnc里的求解器受到环境影响加上特斯拉强大的工程能力，FSD可以跑到36hz，直接出action -> acc / steer 这些应该大家也都知道。

接下来，说了一些做端到端的原因，为什么这样做？

基本上也是大家都知道的：

现实世界的人类的驾驶行为很难用一个评价函数来描述，这导致利用规则进行优化总是会碰到这样那样的问题。
感知预测和规划之间的接口定义是病态的，会有信息损失。
端到端更好扩展，更适合解决长尾问题。
相比传统pnc受到计算条件的影响，基于神经网络的固定的计算时间能够有效降低延时。
最后，哲学层面：Sutton的苦涩的教训，不要依赖人类经验预设，而是更多的依靠算力和数据。

这些基本上也是大家的一些共识。

然后说了两个case，来证明这个评价函数真是没法写，以及接口定义问题。

接下来算是重点了

端到端面临的三个主要问题：

维度灾难，高维到低维导致的监督信号不充足。
可解释性与安全保证。
评价。

维度灾难

简单的说就是我输入了一大堆token，但是我的监督信号就一个动作，这么大的网络和输入，神经网络能够找到太多的shortcut来拟合了，你如何保证其真正理解了驾驶行为呢？

做过端到端的一定理解他说的这一点，很多论文为了解决这些shortcut使用了较多的dropout，mask等方案，tesla今天说，其实你就好好整数据就行

各种trigger，小型神经网络挖数据，总之破解高维到低维的监督问题就是用丰富的数据，产生足够多的有效梯度。大量的数据保证了FSD的泛化性以及一定的安全性。

接下来，可解释性与安全保障，原来的感知结果其实都是预测了，而且还有3D gaussian，还有language，还有一些不想让我们知道的他没写。。这些都会当做COT的过程，用来推理最终的action。

特斯拉秀了一波他们在基于3D gaussian的重建方面的技术实力，没有技术细节，欸。。

看对比就是：快，支持动态物体，不需要什么点云初始化，新视角合成效果很好。（相关技术应该可以支持后边讲的world model）

语言用于决策，这个国内应该都在玩，特斯拉在这里不一定是领先的。

最后，评测，特斯拉说，这是三个问题里边最难得部分。

主要有这么几点：

就算你数据集质量非常高，你也不能用loss描述表现，这俩不是一个东西~ （这个应该和我们认知都是一样的）
开环评测代替不了闭环。（我也这么想的。。）
驾驶具有多模性，评测的指标要能覆盖这些不同的驾驶行为，不能说他绕行过了可以，刹车就不行之类的。
一种方式是评估行为后果的预测，这块没太看懂，意思是tesla每个action会有一个对这个action后果的评估，然后我们可以通过评估这个评估来看模型的好坏？可不可以理解为他们有一个critic，通过评估critic的好坏，来评估模型的好坏？（估计用了rl， policy的很大程度上取决于critic，这样就说的通了。）
做好评估集的平衡。
各种脏活，不过这是秘密，虽然重要但我不告诉~ 气死你~~~（可恶啊！）

重磅来了，基于world model的simulator，真实场景弄出来，然后通过action生成后续的视频，几年前的活这个还有点难，但是看现在sora2的表现，这个方案看起来确实是可行的，这里壁垒很高。看到这个图不用我说了吧 -> 通过构建world simulator，RL被大量使用了。

上图里边的multiview 全是假的。。。生成出来的，又让特斯拉秀到了。

通过world simulator，可以回放之前的问题，看看有没有解决或者改善，就像我们使用两段式仿真一样。

最后说了这套东西完全可用在人形机器人上。通过视频训练一个world model，然后先用数据喂一下机器人模型，之后可以在这里进行强化训练 or 仿真，闭环了。。

这一套其实也能想到，就是你会感觉很宏大，或者说觉得可能做不出来，但是特斯拉真的这么做的，并且死磕出来了，了不起呀。。。

不过这次特斯拉看起来只传道，不传术啊。。

完整版视频：

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com