李飞飞万字长文：AI的下一步，不在语言，而在空间

最新推荐文章于 2025-11-24 18:29:32 发布

原创最新推荐文章于 2025-11-24 18:29:32 发布 · 784 阅读

·

10

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

导读

最近，一篇由“AI 教母”李飞飞亲笔撰写的长文在AI界引起了不小的震动。

这位曾开启 ImageNet 革命、让深度学习进入黄金时代的科学家，这一次抛出了一个颇为颠覆的观点——

“AI 的未来，不在语言，而在空间。”

在她看来，当下的大语言模型（LLM）虽然能写诗、写代码、聊天无所不能，却仍然“活在黑暗中”。

它们理解文字，却不理解世界；会描述杯子，却不知道杯子转个 90 度后是什么样。

这场万字长文，既是一篇学术宣言，也像是对整个人工智能方向的一次“路线反思”。而在具身智能（Embodied AI）逐渐成为全球研究焦点的当下，李飞飞提出的“空间智能（Spatial Intelligence）”，恰好为这一领域补上了最关键的一块拼图。

她认为，真正的智能机器，不是语言大师，而是能看、能想、能动的“世界理解者”。

这篇文章，我们就一起来看看李飞飞是如何重新定义AI的未来。

由于原文篇幅较长，下面内容将对她的核心观点进行提炼与转述，文末也附上原文链接，推荐大家阅读全文

过去几年，大语言模型的奇迹几乎让整个AI界陷入狂欢。

ChatGPT、Claude、Gemini……它们能写论文、能编程、能陪聊，似乎无所不能。

但李飞飞在文中泼了一盆冷水：“它们如同身处暗室的文字巨匠——能言善辩，却缺乏经验；知识渊博，却脱离现实。”

她举了几个再简单不过的例子：

让AI回答“杯子转90度后会变成什么样”；

或问“桌子到门的距离有多远”；

再比如让它走出一个简单迷宫。

▲图1｜曾经的外国网友做了一个有趣的实验：他让ChatGPT-4o生成迷宫的图片，却发现这些迷宫都是无法走通的

结果？AI大多靠“猜”。

这些模型虽然能生成看似合理的答案，却没有真正“看见”世界。

正因为如此，我们才会在AI生成的视频中看到穿墙的手臂、漂浮的物体、违背重力的动作——

它们会“造句”，但不会“造世界”。

李飞飞认为，这正是当前AI最大的问题所在：

当模型的输入与输出都被限制在“语言”这一维度时，它永远无法理解空间、物理和现实。AI仍然是一个“盲人作诗”的存在。

那么，什么是“空间智能”？

李飞飞的解释很直白：

“它是人类认知的脚手架（the scaffolding of human cognition）。”

在婴儿学会说话之前，他们已经在用身体理解世界。

他们抓起玩具、丢下杯子、转动头部去看新的角度。

这些看似简单的互动，其实就是“空间智能”的雏形——通过感知与行动建立世界模型。

人类的创造力和想象力，也都来自这种空间能力。

当建筑师设计一栋楼，他在脑中旋转空间；

当电影导演规划一场镜头，他在操纵三维世界；

当我们半夜起床去倒水，即使不开灯，也能摸到杯子并准确倒入——

那一刻，我们的大脑就在实时计算位置、距离与方向。

李飞飞认为，空间智能是“感知—推理—行动”的完整闭环，是我们理解物理世界的方式。

而AI要想真正“走出屏幕”，也必须掌握这套能力。

从这个角度看，空间智能正是具身智能的灵魂。

● 具身智能讲的是：让机器在真实世界中看、听、动、学。

● 空间智能，则是让这种“动”变得有意识、有预测、有理解。

一个有空间智能的机器人，才能理解“转弯前要避开墙”，而不仅是“看到障碍就停下”。

李飞飞在文章中提出的关键概念，是“世界模型（World Model）”。

她认为，大语言模型的极限在于：它只是理解符号之间的概率关系；

而世界模型要解决的，是让AI理解世界中物体、空间和动态之间的因果关系。她把真正的世界模型概括为“三位一体”：

1. 生成性（Generative）：它必须能生成符合物理规律的世界，知道重力、知道水会流动、知道物体会下落。

2. 多模态（Multimodal）：它不仅能理解文字，还能同时处理图像、视频、深度信息、手势等信号。

3. 交互性（Interactive）：它能理解“动作带来的结果”——你推了一块积木，它知道下一秒积木会倒下。这三点，正是让AI从“语言”跨入“世界”的门槛。

在技术层面，这意味着AI不再只在语料上“预测下一个词”，而要在物理世界中“预测下一个状态”。

比如在机器人领域，一个具有世界模型的系统，可以在模拟环境中学习成千上万次操作，再把这些经验迁移到真实世界。

李飞飞提到，她和团队创立的 World Labs，以及正在研发的 Marble 模型，正是在做这件事——

让AI第一次真正“看见”三维世界。如果说ChatGPT是“语言世界的镜子”，

那World Model，就是“现实世界的投影仪”。

▲图2｜李飞飞创办的World Labs已经开放三代不同的世界模型供在线体验，小编建议各位读者点击链接亲身感受world model的神奇能力，看看完全由AI生成的“物理世界”（https://www.worldlabs.ai/blog）

当AI拥有空间智能后，它能做的事情会远超想象。

李飞飞举了几个场景：

● 创造力的重塑：

电影人、游戏设计师、建筑师将能用语言快速生成3D世界，直接“走进”自己的创作空间；

“世界建模”将成为下一代内容创作的底层能力。

▲图3｜由 AI 生成的这段室内建筑场景，整体的平面布局和光影表现都相当自然，但一旦涉及具有“空间感”的复杂结构，问题立刻暴露出来。例如视频中的旋转楼梯，就出现了明显的扭曲——尤其在后半段，结构形状失真严重，空间关系也不再连贯。这正是当前 AI 仍然缺乏空间智能的最直接证据

● 具身智能的落地：

机器人不再是笨拙的机械臂，而是理解物理规律、会预测后果的伙伴。

它们可以在虚拟世界中自我训练，再在现实中帮人类做家务、照护病人。

● 科学与教育的加速：

AI可以模拟分子相互作用、复现化学反应；

学生可以“走进”古罗马、探索细胞世界，用身体学习知识。

这些变化背后，有一个共通点：

AI从“语言助手”变成了“世界合作者”。

它不只是回答问题的工具，而是能和人一起创造、探索、行动的伙伴。

这正是具身智能一直追求的目标——让智能“长出身体”，重新与世界连接。

李飞飞在文章的最后写道：

“AI的终极目标，不是取代人类，而是为人类赋能。”

她认为，AI由人开发、由人使用、由人治理，

它的价值不在于取代判断力，而在于扩展我们的创造力。

空间智能之所以重要，是因为它让AI重新“接地气”——

让机器不仅理解语言，还理解我们生活的这个世界。

如果说过去十年，AI在语言上实现了“会说话”；

那么未来十年，AI将学会“看得见、动得了、想得通”。

在那一刻，机器才算真正“睁开了眼”。

而那，或许就是人类与真正智能体并肩同行的起点

李飞飞博客原文链接：https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence

world lab链接：https://www.worldlabs.ai/

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。