李飞飞发布的单GPU推理世界模型，自动驾驶应用还会远吗？

最新推荐文章于 2025-12-03 15:13:50 发布

转载最新推荐文章于 2025-12-03 15:13:50 发布 · 100 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247683542&idx=3&sn=e96ca6689af80c47bd4127e2568adac3&chksm=cfbda04f2c800458cdccfacb1a42e2c56bde2a45443fafbcbecb77dbc43a521c8f1a24157461&scene=126&sessionid=0

文章标签：

#自动驾驶 #人工智能 #机器学习

编辑 | 量子位

来源 | 李飞飞发布全新世界模型，单GPU就能跑！

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近30个方向学习路线

>>自动驾驶前沿信息获取→自动驾驶之心知识星球

本文只做学术分享，如有侵权，联系删文

被李飞飞的最新的世界模型刷屏了。

刚刚，教母亲自宣布对外推出全新模型RTFM（A Real-Time Frame Model），不仅具备实时运行、持久性和3D一致性，更关键的是——

单张H100 GPU就能跑。

此外，RTFM的设计遵循三大核心原则：

效率：仅需单张H100 GPU，RTFM便能以交互级帧率实时完成推理运算。

可扩展性：该架构具备随数据量与算力增长而持续扩展的能力。它通过端到端的通用架构从海量视频数据中自主学习，无需依赖显式3D表征即可构建三维世界模型。

持久性：用户可无限时长与RTFM交互，所有场景将永久留存。该系统构建的持久化3D世界不会因视角转换而消失。

下面具体来看。

世界模型需要大量计算资源

强大的世界模型能够实时重建、生成并模拟具有持久性、可交互且物理精确的世界。这类模型将彻底改变从媒体到机器人技术等各行各业。

过去一年，生成式视频建模的进展已成功应用于生成式世界建模领域。

随着技术发展，一个事实愈发清晰：生成式世界模型对算力的需求将远超当今的大型语言模型。

若直接套用现有视频架构，生成60帧的4K交互视频流每秒需产生超过10万个token（约等于《弗兰肯斯坦》或首部《哈利·波特》的篇幅）。

而要维持一小时以上的持续交互，需处理的上下文token更将突破1亿大关。基于当前计算基础设施，这既不可行也不具备经济性。

李飞飞团队深信“惨痛教训”揭示的规律：

那些能随算力增长优雅扩展的简洁方法终将在AI领域占据主导，因为它们能享受数十年来推动技术发展的算力成本指数级下降红利。生成式世界模型正处在绝佳位置，必将从持续降低的算力成本中获益。

这也就引出一个关键问题：生成式世界模型是否会被当前硬件条件所限制？能否现在就预览这项技术的雏形？

于是，李飞飞团队设定了一个明确目标：设计一款足够高效、可立即部署，并能随算力提升持续扩展的生成式世界模型。

他们的目的是打造仅需单张H100 GPU即可驱动的模型，在保持交互帧率的同时，确保虚拟世界永不消散。实现这些技术指标，将让他们提前窥见未来——在当下硬件上体验明日模型可能达到的高度。

这一目标深刻影响着他们从任务设定到模型架构的整个系统设计。通过精心优化推理堆栈的每个环节，融合架构设计、模型蒸馏与推理优化的前沿突破，他们致力于在当今硬件上呈现对未来模型最高保真度预览。

世界模型作为学习渲染器

传统的3D图形管线采用显式3D表征（如三角网格、高斯泼溅）构建世界模型，再通过渲染生成2D图像。这些管线依赖人工设计的数据结构与算法来模拟3D几何、材质、光照、阴影及反射等效果。

数十年来，这类方法始终是计算机图形学领域的中流砥柱，但其难以随数据量与算力增长实现线性扩展。

RTFM则另辟蹊径。基于生成式视频建模的最新突破，研究团队通过训练单一神经网络，输入场景的单张或多张2D图像，即可从全新视角生成该场景的2D图像，全程无需构建任何显式3D表征。

RTFM还采用作用于帧序列的自回归扩散变换器架构，通过海量视频数据进行端到端训练，实现基于历史帧的后续帧预测。

RTFM 可以被视为一种可学习的渲染器（learned renderer）。它首先将输入的图像帧转换为神经网络中的激活（即KV cache），这些激活以隐式方式表示整个世界，在生成新帧的过程中，网络通过注意力机制从这种表示中读取信息，从而根据输入视角生成与之保持一致的世界新视图。

从输入视图转换为世界表示，以及再从该表示中渲染新帧的机制，并不是通过手工设计的，而是通过端到端的数据训练自动学得的。

RTFM只需在训练过程中观察到这些现象，就能够学会建模诸如反射、阴影等复杂效果。

可以说，RTFM模糊了“重建”（在已有视角之间进行插值）与“生成”（创造输入视角中不可见的新内容）之间的界限，而这两者在计算机视觉中历史上一直被视为两个独立的问题。

当RTFM被提供大量输入视角时，由于任务约束更强，它更倾向于执行重建；当输入视角较少时，它则被迫进行超出已有视角的外推生成。

将姿态帧作为空间记忆

现实世界的一个关键特性是持久性（persistence）：当你移开视线时，世界不会消失或完全改变，无论你离开多长时间，你总是可以回到之前去过的地方。

这对自回归帧模型来说一直是一个挑战。世界仅通过二维图像帧被隐式表示，因此，实现持久性要求模型在用户探索世界的过程中，对不断增长的帧集合进行推理。这意味着每生成一帧的成本都比前一帧更高，因此模型对世界的记忆实际上受到其计算资源预算的限制。

RTFM通过将每一帧建模为在三维空间中具有一个姿态（位置和方向）来规避这一问题。他们通过向模型提供待生成帧的姿态来生成新帧。

模型对世界的记忆（包含在其帧中）具有空间结构。它将带有姿态的帧作为空间记忆使用。这为模型提供了一个弱先验——即它所建模的世界是三维欧几里得空间——而无需强制模型显式预测该世界中物体的三维几何形状。

RTFM的空间记忆使得持久性不受限制。在生成新帧时，他们会从已姿态帧的空间记忆中检索附近帧，以为模型构建一个定制的上下文。

团队将这一技术称为上下文切换（context juggling）：模型在不同空间区域生成内容时会使用不同的上下文帧。这使得RTFM能够在长时间交互中保持对大型世界的持久记忆，而无需对不断增长的帧集合进行推理。

最后，该模型即日起以预览版形式开放体验，现在就可以试起来了…

试完欢迎回来补个反馈评论哦，笔芯～

参考链接：
[1]https://x.com/drfeifei/status/1978840835341914164
[2]https://x.com/theworldlabs/status/1978839175320186988
[3]https://www.worldlabs.ai/blog/rtfm

一键三连「点赞」「转发」「小心心」

欢迎在评论区留下你的想法！

自动驾驶之心

论文辅导来啦

自驾交流群来啦！

自动驾驶之心创建了近百个技术交流群，涉及大模型、VLA、端到端、数据闭环、自动标注、BEV、Occupancy、多模态融合感知、传感器标定、3DGS、世界模型、在线地图、轨迹预测、规划控制等方向！欢迎添加小助理微信邀请进群。

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com