如果当前如火如荼的大语言模型(LLM)只是一个“能言善辩的瞎子”,你还会认为AI真的理解世界吗?AI教母李飞飞一针见血地指出,LLM的知识缺乏“现实根基”。而她提出的下一个前沿——空间智能,目标正是为AI装上“眼睛”和“双手”,让它真正看懂、并走入我们的世界。
【李飞飞老师学习资料已整理好】

李飞飞倡导的“空间智能”,其技术内核是从基于符号的LLM范式,转向基于物理模拟的“世界模型”范式。这是AI想要从“数字世界”走进“物理世界”所必须跨越的技术鸿沟。让我们一起从“是什么”、“为什么”、“怎么做”三个维度,来彻底搞懂她提出的“空间智能”技术内涵。
一、是什么?
什么是空间智能(Spatial Intelligence)?—— 超越语言的“世界模型”
李飞飞认为当前以大语言模型为代表的AI存在根本性局限——它们是基于符号(文字)的系统,缺乏对物理世界的“根基”理解。
(1)LLM是“黑暗中的文字匠”
LLM通过学习海量文本数据中的统计规律,变得“能言善辩”。但它并不真正“理解”它所说的内容。例如,它知道“苹果从树上掉下来”这句话很常见,但它并不理解“掉下来”背后的重力、速度、质量等物理概念。
(2)空间智能是人类认知的“脚手架”
人类智能的进化始于与物理世界的互动。我们需要感知环境(看、听、触),理解物体在空间中的关系(远近、上下、内外),预测其物理动态(碰撞、支撑、坠落),并据此行动。这种对三维空间的、物理的、动态的世界的内在理解能力,就是空间智能。它是我们进行推理、想象和创造的基础。
(3)空间智能的终极载体是“世界模型”
要让AI拥有空间智能,不能只靠更大的文本训练数据,而是要构建一个全新的模型——世界模型。这个模型的内在对世界的表示,不再是文字序列,而是一个符合几何、物理和语义规律的、可推理和可交互的模拟世界。
通过李飞飞的专业解释,我们脑补下空间智能的画面。它让AI不仅能读懂“苹果落地”这句话,更能像我们一样,在脑海里想象出苹果掉落的轨迹、理解背后的重力,甚至预判它会弹几下。同时也初步了解实现它的核心,就是为AI构建一个名为“世界模型”的内心模拟器,使其能真正“感受”并“互动”于这个三维世界,而不仅仅是阅读和生成关于这个世界的文本。

二、为什么?
为什么需要空间智能?—— 突破AI的能力天花板
李飞飞指出了当前AI在需要空间理解的任务上表现不佳,这限制了其应用边界。主要存在如下问题:
-
(1)低级空间任务失败
-
让最先进的多模态模型估算距离、从新视角想象一个物体、数清视频中不重复的物体数量,它的表现往往很差。
-
(2)缺乏物理常识
-
AI无法预测一个堆叠的积木塔是否会倒下,也无法规划穿过房间的最短路径,因为它没有内置的物理规则。
-
(3)生成内容缺乏连贯性
-
AI生成的视频几秒后就会“崩坏”,因为它无法保持场景在时间和空间上的长期一致性。
-
(4)无法与真实世界互动
-
这是最关键的局限。要让机器人拿杯子,AI不仅要知道“杯子”这个词,还要理解杯子的3D形状、材质(是易碎的瓷杯还是柔软的纸杯)、它与其他物体的位置关系,以及抓取它需要施加多大的力。

通过李飞飞的论文,我们了解了当前AI的瓶颈局限。目前的AI(如自动驾驶)在处理熟悉场景时已非常可靠,但其能力严重依赖事先见过的海量数据。它的核心瓶颈是缺乏“物理常识”,无法真正理解世界,因此难以安全处理未知的复杂情况。
发展空间智能,就是为AI装上理解物理规则的“大脑”,让它能从机械的“识别”进化到真正的“理解”,从而突破瓶颈,实现真正的自主。
三、怎么做?
如何实现空间智能?- 技术核心与挑战
李飞飞提出了构建“世界模型”的三大核心能力和面临的巨大技术挑战。
(1)世界模型的三大核心能力:生成性、多模态、交互性
-
生成性:模型不仅能生成一张逼真的图片,还能生成一个完整的、一致的、可探索的3D环境。这个环境必须在其自身的规则下是“真实”的——物体有体积、不会穿模、符合物理定律(如重力)。例子:你提示“生成一个阳光明媚的海滩”,世界模型会创建一个3D场景,你可以走进这个场景,从任何角度观察,看到海浪拍打沙滩的连续动态,并且捡起的贝壳不会穿透你的手掌。

-
多模态:模型的“提示”和“输出”都必须是多模态的。输入可以是文本、图像、深度图、手势、动作指令等;输出也应是相应的世界状态(如图像、视频、3D网格、物理模拟数据)。例子:你可以对模型说“把那边蓝色的椅子移到窗户旁边”(语言+手势指向),模型能理解你的指令,并在生成的世界中模拟出椅子被移动的整个过程和结果。

-
交互性:这是世界模型与LLM的本质区别。模型必须能根据动作来预测世界的下一个状态。这模拟了“感知-行动”循环。例子:在模拟中,你(或AI智能体)推动一个箱子,世界模型能计算出箱子被推动后的新位置,以及它是否会撞到其他物体。这是训练机器人和游戏AI的基础。

LLM有非常优雅的训练目标——“下一个词预测”。
但对于世界模型,如何设计一个同样强大且通用的训练目标?这个目标必须能同时学习语义、几何、物理等多种约束,极其复杂。
训练世界模型需要海量的、带有丰富空间信息的数据(如3D几何、深度、物理属性)。互联网上虽有海量图片和视频,但它们大多是2D的,缺乏显式的3D和物理信息。
(1)从2D反推3D
开发更强大的算法,从一张普通的照片或一段电影视频里,“猜”出物体的三维形状和远近关系。就像我们人类仅凭一张静态照片,就能在脑海里想象出这个场景的3D结构一样。
(2)利用合成数据
在虚拟引擎(如Unity, Unreal)中生成大量带精确标注的合成数据。这样在虚拟引擎中创造一个“完美的练习世界”,AI学习所用的每一个物体、每一个场景,其精确的尺寸、形状、物理属性都已经被提前完美定义好。让AI能高效、安全地学习世界的三维规则。
(3)新的传感器
鼓励使用能直接捕获深度、触觉等信息的传感器。这相当于让AI天生就拥有了感知立体空间的“超能力”,从根本上解决了从平面信息推断立体世界的难题。



李飞飞的空间智能与世界模型

945

被折叠的 条评论
为什么被折叠?



