作者 | 天南 来源 | 天南AI茶馆
点击下方卡片,关注“自动驾驶之心”公众号

>>自动驾驶前沿信息获取→自动驾驶之心知识星球
本文只做学术分享,如有侵权,联系删文

从模仿学习到视频学习,再到世界模型,特斯拉一直在正确的路上。
这是特斯拉Optimus大脑技术方案的第三篇。
特斯拉今年5月份就彻底放弃模仿学习,而转向视频学习,虽然现在还处于视频学习第一人称视角阶段,未来他们将进入一个终局的解决方案。
模仿学习实现了端到端,但也带来数据泛化性的致命问题。
视频学习解决了数据来源多样性,但还是无法解决规模和成本问题。
这样就引入了终极方案,能够解决来源多样性、规模、成本的问题。
最重要的是,通过这个方案可以让机器人有了物理世界的知识,也就有了像养孩子一样培养教育机器人的基础。
那就是世界模型——目前机器人大脑的终极方案。
那啥叫世界模型,其实是一个拥有大规模真实世界物理知识的模型,也是一个物理引擎,里面的一切都将符合物理规律,比如苹果落到水泥地上会碎,比如煎鸡蛋太久会变得黑糊。
这个和传统模拟器的手动编写物理规则不同,世界模型就是一个学习海量真实世界视频的大模型,它就跟小孩子成长的步伐一样,自主领悟了世界的物理规律,包括刚体运动、流体、柔性物体的形变等等。
那今天我们来拆透Optimus的大脑的终极方案——世界模型。
01
先聊聊最新的出的世界模型到底是啥样的。
最近谷歌的纳米香蕉图片生成模型都刷屏了吧,手办、多图参考都随便搞的,你会发现不管你怎么搞,里面的都是符合物理规律的。
比如输入两个人像,以及一张手绘图,模型就能够理解你的意图生产生成下面的战斗动作。

从X上的技术报告来看,纳米香蕉的最新模型就是融入了世界模型的知识,所以才变得这么好用。
我们知道了世界模型联合训练的好处,那再来看看谷歌8月初放出了他们的Genie3,这是一个真正的世界模型。
Genie3是创造了一个近似3D物理世界,你可以在这个世界里面走动,甚至再创造,你就是这个世界的“女娲”。
但请注意,不要把Genie3跟文生视频Veo3、sora等混在一起,Sora这些是2D固定视角的视频流,你只能跟着制的着的角度看,完全不能交互。
而Genie3是根据你的提示创造了这个世界,你可以左右移动,可以进行act,你是可以跟这个世界进行强交互的(物理现实世界的逻辑)。
比如下面这个刷油漆的视频↓,可以进行移动操作和刷漆操作。
再比如你创造了一个国漫风格的场景,你可以在这个场地里面突然下起雨,或者天空突然飘过来一片白色的云,并且这个世界里面的内容都是会符合物理规律的。
总之,Genie 3 创造了 非常逼近真实场景 且 符合物理规律 且可以进行交互 的虚拟世界视频流。
02
那有了这个世界模型,怎么用到机器人身上呢?
接下来的内容非常重要,划重点了哈。
首先,用Optimus机器人在真实世界中执行任务的少量视频,对这个通用的视频生成模型进行微调。
这一步至关重要,它教会了AI模型Optimus自身的“物理定律”——它的关节如何转动,手臂有多长,手能抓多紧。

然后,一旦模型理解了Optimus,工程师就可以用简单的自然语言指令,让它生成海量的、照片般逼真的模拟视频。
比如,给出一个“熨烫衬衫”的指令,模型就能生成成千上万条Optimus以不同方式熨烫衬衫的视频。工程师可以筛选掉其中失败的片段,只保留成功的片段。
接下来,用其他的AI模型(如逆向动力学模型)来分析这些成功的视频。
这些模型会反向推算出,要实现视频中的流畅动作,机器人的每一个电机在每一毫秒需要输出什么样的精确控制指令(扭矩、速度等)。这些被反解出来的指令被称为“伪动作”。
最后,将生成的视频与提取出的“伪动作”指令配对,形成海量的“(视频, 动作)”数据对。这些数据量级巨大、标注完美、成本极低,可以像喂养普通神经网络一样,高效地训练Optimus的主控AI。
这种方法的巨大价值在于,它能让机器人在虚拟世界中进行近乎零成本、零风险、无限次的试错学习。尤其对于处理现实中罕见的边缘案例。

例如从一个杂乱的抽屉里取物,合成数据可以轻松生成无数种变化,从而极大地提升模型的鲁棒性和泛化能力。
机器人能够将其技能推广到从未见过的任务和环境中,这非常了不起。
英伟达之前的技术报告说过,只需从一个现实世界的任务开始,他们的人形机器人就能在未经任何演示的情况下学习 22 种新行为。
实际上,通过这种方式,机器人在未知环境中执行新任务的成功率从 0% 提高到了 40% 以上,这是一个非常大的能力飞跃!
毕竟你从小学会了煎鸡蛋,让你去煎条鱼,那你肯定也是可以把任务迁移过去的。
这种虚拟的世界模型的方法比传统的手工编码图形引擎具有巨大的优势。
生成模型不用处理可变形物体、流体或复杂光照等复杂物理现象。每个世界,无论多么复杂,都只是通过语言等信息就可以进行模拟。
世界模型训练就是机器人的终极试炼场了。
03
终于,我们花了三天的时间把特斯拉Optimus的大脑路线前世、今生、和未来拆完了。
前世:模仿学习——特斯拉Optimus,彻底放弃了遥控学习
今生: 视频学习——特斯拉Optimus:彻底转向了视频学习,未来将依靠Youtube
未来: 世界模型——本篇。
....
我三天写下大几千字,好像很容易的样子。
但特斯拉Optimus已经走了好几年,才从模仿学习迁移到目前的视频学习。
在可预见的未来里,它还要继续走好几年,才能走到下一个阶段——世界模型。
然后,再告诉你们一个现实:
目前自动驾驶里面的大多数企业,连端到端都还没实现,还是感知-决策-控制的分层设计。
而目前国内的人形机器人企业,包括所有你看到的宣称自己VLA模型的公司,他们都还在花大价钱收集数据进行模仿学习的阶段。
路漫漫其修远兮,奋斗吧,国内厂商们!
自动驾驶之心
论文辅导来啦

自驾交流群来啦!
自动驾驶之心创建了近百个技术交流群,涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向!欢迎添加小助理微信邀请进群。

知识星球交流社区
近4000人的交流社区,近300+自动驾驶公司与科研结构加入!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知(大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、大模型,更有行业动态和岗位发布!欢迎加入。

独家专业课程
端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频
学习官网:www.zdjszx.com
1523

被折叠的 条评论
为什么被折叠?



