Datawhale干货
作者:李飞飞,斯坦福大学教授
当语言模型让机器“会说话”之后,下一个关键问题是:它们能否真正理解世界?
斯坦福大学教授李飞飞在最新长文中指出,空间智能(Spatial Intelligence)将成为AI的下一个前沿。在这篇文章里,首次系统性地解释了什么空间智能、为什么重要、以及如何使用它。

原文地址:https://drfeifei.substack.com/p/from-words-to-worlds-spatial-intelligence
李飞飞将“真正具有空间智能的世界模型”定义为具备三大能力:
生成能力(Generative):能创建几何、物理、自洽的虚拟世界;
多模态性(Multimodal):能同时理解文本、图像、动作等多种输入;
交互性(Interactive):能根据动作预测并输出下一状态,实现连续交互。
以下是李飞飞的博客全文:
从文字到世界:空间智能是AI的下一个前沿
1950年,当计算机还只是自动化算术和简单逻辑时,艾伦·图灵提出了一个至今仍在回响的问题:机器能思考吗?他凭借非凡的想象力预见到:智能或许有一天可以被“构建”出来,而不是天生的。
这一洞见后来开启了一场持续不断的科学探索——人工智能(AI)。在我从事 AI 研究的二十五年间,图灵的愿景一直激励着我。但我们究竟离实现这一愿景还有多远?答案并不简单。
如今,以大语言模型(LLMs)为代表的先进AI技术正开始改变我们获取和处理抽象知识的方式。然而,它们仍像是在黑暗中舞文弄墨的文人——言辞流畅却缺乏实际经验,知识丰富却脱离现实。
而空间智能(spatial intelligence)将彻底改变我们创造和与真实及虚拟世界交互的方式——彻底革新叙事、创造力、机器人技术、科学发现以及更多领域。这,正是AI的下一个前沿。
自从进入这个领域以来,追求视觉与空间智能就一直是我的“北极星”。正因如此,我花费多年时间构建了 ImageNet——第一个大规模的视觉学习与基准测试数据集,也是继神经网络算法和现代计算(如GPU)之后,推动现代人工智能诞生的三大关键要素之一。
这也是为何,我在斯坦福大学的实验室在过去十年里一直专注于将计算机视觉与机器人学习相结合。而我和联合创始人 Justin Johnson、Christoph Lassner、Ben Mildenhall 在一年多前共同创立 World Labs,正是为了真正第一次全面实现这一愿景。
在这篇文章中,我将阐述什么是空间智能、为什么它重要、以及我们如何构建能够解锁它的“世界模型(world models)”——这些进展将深刻重塑创造力、具身智能和人类的发展进程。
空间智能:支撑人类认知的基石
AI从未像今天这般激动人心。以 LLMs 为代表的生成式 AI 模型已从实验室走向大众生活,成为数十亿人进行创作、提升效率和沟通交流的重要工具。
它们展现出以往难以想象的能力,能轻松生成流畅的文本、海量代码、高度逼真的图像,甚至简短的视频片段。如今,AI 是否将改变世界已不再是个问题——毫无疑问,它早已在深刻地改变着世界。
然而,仍有诸多目标尚未实现。自动化机器人的愿景虽令人向往,却仍停留在设想阶段,远未成为未来学家曾长期预言的那种日常必需品。在疾病治疗、新材料研发以及粒子物理等领域大幅加速科研进程的梦想,也依然未能实现。
至于能够真正理解并赋能人类创作者的 AI——无论是学习分子化学复杂知识的学生、构思空间布局的建筑师、打造虚拟世界的电影人,还是任何渴望获得深度沉浸式虚拟体验的人——都仍未到来。
要弄清楚为什么这些能力依然难以实现,我们需要回溯:空间智能是如何演化的?它又如何影响我们理解世界的方式?
视觉虽是人类智能的重要基础,但它的力量源自更根本的东西。早在动物学会筑巢、抚育后代、语言交流或建立文明之前,那看似简单的“感知行为”,就已经悄然点燃了通向智能的进化历程。
这种看似孤立的从外部世界获取信息的能力,例如捕捉一丝光线或感受物体的质地,在感知与生存之间架起了一座桥梁。随着世代的演变,这座桥梁不断加固并日益复杂化,由此催生出层层叠叠的神经元,最终形成能解释世界、协调生物与环境互动的神经系统。
因此,许多科学家认为,“感知——行动”构成了推动智能演化的核心闭环,也成为自然界孕育人类的基础——一个具备感知、学习、思考与行动能力的终极存在。
空间智能在我们与物理世界的互动中扮演着基础性的角色。
日常生活中,我们无时无刻不在依赖它:比如停车时凭感觉判断车头与路肩的距离,伸手接住从空中抛来的钥匙,在拥挤的人行道上灵活穿行而不撞到他人,或是半梦半醒间无需注视也能把咖啡准确倒入杯中。
在更危急的情境下,消防员穿行于坍塌建筑与浓烟之中,瞬间判断稳定性与生死抉择,通过肢体语言和本能默契沟通——这些都无可言传。而婴儿则在学会语言前的漫长时光里,通过玩耍与环境互动来认识世界。
所有这些能力都是人类与生俱来、自然流畅的表现——而这正是当前机器仍未企及的境界。
空间智能同样是我们想象力与创造力的重要基础。
讲故事的人在脑海中构建出丰富多彩的世界,并通过各种视觉媒介将之呈现给他人。从远古的洞穴壁画,到现代电影,再到沉浸式电子游戏,皆是如此。无论是孩子在沙滩上堆沙堡,还是在电脑上玩《我的世界》,这种以空间为基础的想象,都是现实或虚拟世界中互动体验的核心。而在众多行业应用中,对物体、场景及动态交互环境的仿真技术,正广泛应用于工业设计、数字孪生、机器人训练等大量关键业务场景。
历史上诸多改变文明进程的关键时刻,都离不开空间智能的重要贡献。
古希腊的托色尼(Eratosthenes)利用影子进行几何推算——在亚历山大测得太阳影子形成的7度角,并与赛恩(Syene)“正午无影”的现象进行对比,从而计算出了地球的周长。
哈格里夫斯(Hargreaves)凭借空间思维发明了“珍妮纺纱机”:他将多个纺锤并排安装在同一框架上,使一名工人能同时纺出多根纱线,生产效率提升了八倍。
沃森(Watson)与克里克(Crick)则通过他们亲手搭建的三维分子模型——他们用金属板与铁丝不断调整、拼接,直到碱基对的空间排布完美契合。
在这些例子中,正是空间智能推动了人类文明的进步——科学家和发明家都必须操作实物、构想结构并理解空间关系,而这些能力是单纯的文字无法传达的。
空间智能(Spatial Intelligence)是我们认知能力的基础架构。
无论是在被动观察还是主动创造的过程中,它都发挥着作用。它驱动我们的推理与规划,即便是面对最抽象的问题也不例外。同时,它也深刻影响着我们与世界互动的方式——无论是通过语言还是肢体行为。
虽然我们大多数人日常无法达到埃拉托斯特尼那样的发现高度,但我们的思维方式本质上是相似的:通过感官感知复杂的世界,并凭借对物理空间规律的直觉理解来认识这个世界。
遗憾的是,当今的AI还无法以这样的方式思考。
近年来确实取得了巨大进展。多模态大语言模型(MLLMs)在文本数据的基础上,利用大量多媒体数据进行训练,初步具备了空间感知能力:
它们可以分析图像、回答相关的问题,甚至生成高度逼真的图片和短视频。同时,得益于传感器与触觉技术的突破,目前最先进的机器人已能在高度受限的环境中操作物体和使用工具。
然而,坦率地说,目前AI的空间能力仍远不及人类,其局限性也显而易见。即使是最先进的多模态大语言模型在判断距离、方向和尺寸时,表现往往不比随机猜的好多少;无法通过从新视角重新生成物体,来实现“心理旋转”;不会在迷宫中导航、识别捷径,或预测基本的物理规律;生成的视频虽然新奇炫目,却常在几秒钟后失去连贯性。
当前最先进的AI擅长阅读、写作、研究以及数据中的模式识别,但在理解和与物理世界互动时,却存在根本性的局限。
我们人类理解世界的方式是整体性的——不仅关注眼前所见,更关心它们在空间上的关系、在语义上的意义、以及在现实中的重要性。而这种通过想象、推理、创造与交互来理解世界的能力,正是空间智能的力量。
缺乏空间智能,AI便无法真正融入其所要理解的物理现实:它既不能真正安全地驾驶汽车、无法在家庭与医院中引导机器人、无法创造全新的沉浸式学习与娱乐体验、也无法加速材料科学与医学的发现。
哲学家维特根斯坦曾写道:“我的语言的边界,就是我的世界的边界”。我并非哲学家,但我知道,对AI而言,世界远不止于语言。空间智能正是一种超越语言的前沿。
它连接想象、感知与行动,为机器真正提升人类生活打开了新的可能:从医疗到创意表达,从科学发现到日常辅助。
AI的下一个十年:打造真正具备空间智能的机器
那么,我们该如何打造具备空间智能的AI?
什么样的发展路径才能实现这样的模型——既能像埃拉托斯特尼那样洞察世界,又能像工业设计师一样精准地进行工程设计,像讲故事的人一样富有创造力,还能像急救人员一样流畅自如地与环境互动?
要实现这样的AI,我们需要比LLM更具雄心的体系:世界模型(World Models)。
这是一种全新的生成式模型,其在理解、推理、生成与交互方面的能力,将超越当今LLM所能触及的极限。它能够在语义、物理、几何与动态层面上,理解并生成复杂的虚拟或真实世界。
这一领域尚处于萌芽阶段,现有方法从抽象推理模型到视频生成系统不等。
World Labs成立于2024年初,正是基于这样一种信念:基础性方法仍在形成之中,而这将成为未来十年人工智能的决定性挑战。
在这个新兴领域中,最重要的是确立指导发展方向的核心原则。对于空间智能而言,我将“世界模型”定义为具备以下三项核心能力的系统:
1、生成性(Generative):世界模型能够生成具有感知、几何与物理一致性的世界
要实现空间理解与推理,世界模型必须能够生成自身的模拟世界。
它应能在语义或感知指令的引导下,生成无限多样、变化丰富的虚拟世界,同时保持几何、物理与动态上的一致性,无论这些世界是现实的还是虚拟的。
研究界目前正在探索,这些世界应当以隐式(implicit)还是显式(explicit)的几何结构形式表示。
除了强大的潜在表征(latent representations)之外,我认为通用世界模型的输出还应当允许生成显式、可观测的世界状态,以便适应不同的应用场景。尤其重要的是,模型对当下世界的理解必须与其过去的状态保持连贯一致——理解当前,就是理解它是如何演化而来的。
2、多模态(Multimodal):世界模型天生需要具有多模态特性
正如人类与动物一样,世界模型应能处理多种形式的输入。在生成式AI领域中,这些输入被称为“提示词(prompts)”。
面对不完整的信息——无论是图像、视频、深度图、文本指令、手势还是动作,世界模型都应能预测或生成尽可能完整的世界状态。
这要求模型既要以真实视觉的精度处理图像输入,又能以同样的灵活性理解语义性指令。
如此一来,无论是智能体还是人类,都能通过多样的输入形式与模型就“世界”进行交流, 并以多样的方式接收输出。
3、交互性(Interactive):世界模型能根据输入动作预测并输出下一个状态
最后,当动作(actions)和/或目标(goals)作为输入提示的一部分时,世界模型的输出必须包含世界的下一个状态。
这一状态可以是隐式的,也可以是显式的。当输入仅包含一个动作(有无目标皆可)时,世界模型应能生成与世界先前状态、预期目标状态(如有)、以及其语义意义、物理规律、动态行为相一致的输出。
随着空间智能世界模型在推理与生成能力上不断增强,我们可以想象,未来模型不仅能预测世界的下一个状态,还将能够基于该状态预测下一步行动。
这一挑战的规模,超越了AI以往所面临的一切。
语言是人类认知中纯粹生成的现象,而“世界”遵循的规则则复杂得多。
在地球上,例如:重力决定运动,原子结构决定光的颜色与亮度,无数物理定律约束着一切交互。
即使是最奇幻、最具创造性的世界,也由遵守物理与动态规律的空间对象与智能体构成。
要在模型中一致地协调这些——语义、几何、动力学与物理层面——需要全新的方法论。因为“世界”的维度远比语言这种一维的序列信号复杂得多。
要实现像人类一样具备普适空间智能的世界模型,必须跨越若干巨大的技术壁垒。
在World Labs,我们的研究团队正致力于这一目标的基础性突破。
以下是我们当前研究的几个方向示例:
一种新的通用训练任务函数:在世界模型研究中,一个长期目标是定义一种像LLM中“下一个token预测”一样简洁优雅的通用任务函数。然而,世界模型输入与输出空间的复杂性使这一函数的设计更加困难。尽管仍有大量探索空间,但这一目标函数及其对应表征必须符合几何与物理规律,忠实体现世界模型在想象与现实之间的“落地表征”本质。
大规模训练数据:训练世界模型所需的数据远比文本复杂。好消息是我们已经拥有了庞大的数据资源。互联网上规模宏大的图像与视频集合为训练提供了丰富的素材。挑战在于:如何让算法从二维图像或视频帧(RGB)中提取更深层次的空间信息。过去十年的研究揭示了语言模型中数据量与模型规模的scaling law;对于世界模型,关键在于构建能够在相似规模上有效利用视觉数据的架构。此外,高质量的合成数据以及额外模态(如深度、触觉)的作用不可低估,它们在训练过程的关键阶段起到补充作用。未来的发展取决于更先进的传感系统、更稳健的信号提取算法、以及更强大的神经仿真方法。
新的模型架构与表征学习:世界模型研究将不可避免地推动模型架构与学习算法的革新,特别是超越当下的多模态LLM与视频扩散模型(video diffusion)。这些模型通常将数据编码为一维或二维序列,使得简单的空间任务,例如在短视频中数清不同的椅子,或记住一小时前房间的样子变得异常困难。新的架构思路或许能改进这一点,例如具备3D或4D感知能力的token化、上下文与记忆机制。例如,在World Labs,我们最近开发了一种基于帧的实时生成模型——RTFM(Real-Time Generative Frame-based Model)。它以空间为基础的帧(spatially-grounded frames)作为空间记忆形式,实现了高效实时生成的同时,保持了生成世界的持续性与一致性。
显然,在完全释放空间智能的潜力之前,我们仍面临艰巨的挑战。但这项研究不仅仅是理论工作,它正成为新一代创造性与生产力工具的核心引擎。
在World Labs的进展令人鼓舞。我们最近向部分用户展示了Marble的早期版本——全球首个可通过多模态输入生成并保持一致性3D环境的世界模型,让用户与创作者能够探索、交互并在其中继续构建他们的创意世界。我们正全力以赴,努力尽快将其向公众开放。
Marble只是我们的第一步。随着研究的加速,科研人员、工程师、用户与商业领袖们都开始意识到这一方向的巨大潜能。下一代世界模型将使机器在空间智能上达到全新的层次,这将开启AI迄今仍普遍缺乏的核心能力,并真正让人工智能进入理解与创造世界的时代。
用世界模型为人类构建更美好的世界
AI 的发展动因至关重要。作为推动现代AI时代到来的科学家之一,我始终抱有一个清晰的信念:AI应当增强人类的能力,而非取而代之。
多年来,我一直致力于让AI的开发、应用和治理真正服务于人类需求。
当下关于“技术乌托邦”或“世界末日”的极端言论层出不穷,但我始终坚持一种更为务实的看法:AI由人类创造,为人类所用,并由人类来监管。
它必须始终尊重人的自主性与尊严。它的“魔力”在于拓展我们的能力,让我们变得更具创造力、更紧密相连、更高效并更有成就感。
空间智能正体现了这一愿景——一种能赋能人类创造者、照护者、科学家与梦想家的AI,使他们实现曾经不可能的目标。这一信念,正是我将空间智能视为AI下一个伟大前沿领域的根本原因。
空间智能的应用横跨不同的时间尺度。创作工具正在当下出现——World Labs的 Marble 已经让创作者与讲故事的人能够亲手掌握这种能力。
机器人领域则代表着中期的雄心目标,我们正致力于完善感知与行动之间的闭环。而最具变革意义的科学应用可能需要更长时间,但它们将深刻地促进人类的福祉。
在所有时间线中,有几个领域的潜力尤其突出,足以重塑人类的能力。要实现这些潜力,需要集体努力远超任何一个团队或公司的能力范围。
它需要整个AI生态系统的参与:研究者、创新者、创业者、企业家,乃至政策制定者,共同朝着一个愿景努力。而这个愿景,值得我们追求。以下是未来的图景:
创造力:为叙事与沉浸体验注入超能力
“创意,是智慧的乐趣。”这是我最喜欢的爱因斯坦名言之一。
在人类发明文字之前,我们就会讲故事——把故事画在洞穴壁上,代代相传,并以共享的叙事建立文化。故事是人类理解世界、跨越时空连接彼此、探索“人之为人”的方式,也是我们在生活与爱中寻找意义的途径。
今天,空间智能有潜力彻底变革我们创作与体验叙事的方式,从娱乐到教育,从设计到建造,赋予它们更深远的影响力。
World Labs的Marble平台 将前所未有的空间表达能力与编辑控制权交到电影人、游戏设计师、建筑师及各类讲述者手中,让他们无需传统3D设计软件的繁复流程,就能快速创造、迭代、探索完整的三维世界。创造的行为依然是人类的核心活动——AI只是放大并加速创意实现的过程。这包括:
多维叙事体验:电影人和游戏设计师可以利用 Marble 构建整个世界,不受预算或地理限制,探索传统制作流程中无法实现的场景与视角。随着媒介与娱乐的界限模糊化,我们正接近一种全新的互动体验形态——融合艺术、模拟与游戏的个性化世界,让任何人(而不仅仅是大型工作室)都能创造并进入自己的故事。
以设计讲述空间故事:几乎所有被制造的物品或建造的空间,都必须在物理实现之前经过虚拟3D设计——这一过程往往耗费大量时间与成本。借助空间智能模型,建筑师可以在数分钟内可视化并漫游尚不存在的建筑;工业或时装设计师可以即时将想象转化为形态,探索物体与人体及空间的交互。
全新的沉浸与互动体验:人类体验的最深层方式之一,就是创造意义的体验本身。在整个人类历史上,我们只共享一个三维世界:物理世界。直到近几十年,通过游戏与早期虚拟现实(VR),我们才得以初步窥见“自造世界”的可能。如今,空间智能结合VR、XR(扩展现实)头显与沉浸式显示设备,将这种体验提升到前所未有的高度。未来,人们“走进”多维世界将如同打开一本书般自然。空间智能让造世界的权力从专业团队扩展到每一位拥有愿景的创作者、教育者与普通人。
机器人:具身智能的实践
从昆虫到人类,动物都依赖空间智能来理解、导航并与世界交互。机器人也不会例外。
自该领域诞生以来,“具备空间感知的机器”就是人类的梦想,包括我在斯坦福研究实验室与学生、合作者共同进行的研究。正因如此,我对用 World Labs 构建的模型实现这一愿景感到异常兴奋。
借助世界模型扩展机器人学习:机器人的学习进步取决于可扩展的训练数据方案。要让机器人具备理解、推理、规划与交互的能力,它们需要覆盖极为庞大的状态空间。许多研究者认为,互联网数据、合成仿真数据与人类演示的真实采集三者结合,是实现可泛化机器人的关键。然而,与语言模型不同,如今机器人的训练数据极为稀缺。世界模型将在此发挥决定性作用。 随着其感知精度与计算效率的提高,世界模型生成的输出将迅速缩小模拟与现实之间的差距,从而让机器人能在数不清的状态、互动与环境中学习。
- 伙伴与协作者:机器人作为人类的协作伙伴,无论是实验室中协助科学家,还是为独居老人提供帮助,都能在劳动力紧缺、亟需提升生产力的当下,有效补充人力资源。但要实现这一点,机器人必须具备空间智能,能感知、推理、规划、行动,并且最重要的是:始终以共情的方式与人类的目标和行为保持一致。例如,实验室机器人可以替代科学家完成仪器操作,让人专注于需要推理的部分;家庭助理机器人则可以帮助老人做饭,而不剥夺他们的乐趣与自主性。真正具备空间智能的世界模型能够预测下一个状态,甚至推断与之匹配的下一步行动,是实现这一愿景的关键。
具身形态的扩展:人形机器人正在我们构建的世界中发挥作用,但真正的创新潜力将来自更多样化的设计:输送药物的纳米机器人、穿行狭窄空间的软体机器人、以及为深海或外太空而造的机器。无论形态如何,未来的空间智能模型都必须将环境与机器人自身的感知、运动一体化建模。但开发这些机器人面临的关键挑战在于:缺乏多样化形态的训练数据。世界模型将在这一过程中发挥关键作用——为仿真数据、训练环境与评测任务提供支持。
更长远的地平线:科学、医疗与教育
除了创造性与机器人应用外,“空间智能”的深远影响还将延伸至更多能够增强人类能力、拯救生命、加速发现的领域。以下我将重点介绍三个具有深刻变革潜力的方向当然,空间智能的实际应用远不止于此,在众多行业中都拥有广阔的发展前景。
在科学研究中,具备空间智能的系统可以模拟实验、并行验证假设,并探索人类无法亲临的环境——从深海到遥远的行星。这项技术有望彻底变革气候科学、材料研究等领域的计算建模方式。通过将多维度模拟与真实世界数据采集相结合,这些工具能显著降低计算壁垒,拓展每一个实验室可观察与理解的边界。
在医疗领域,空间智能将彻底改变从实验室研究到临床护理的各个环节。在斯坦福,我与学生及合作者多年来一直与医院、养老机构以及居家患者合作。这些经验让我深信空间智能在医疗领域的变革潜力。AI可以通过多维建模加速药物研发,通过辅助放射科医生识别影像中的模式来提升诊断质量;它还可支持环境感知式监护系统,在不取代人类关怀的前提下,为患者与护理人员提供持续支持。更不用说机器人在不同场景中帮助医护人员和患者的巨大潜力。
在教育领域,空间智能能够实现沉浸式学习,使抽象或复杂的概念变得直观可感,并创造出符合人类大脑与身体学习方式的反复实践体验。在AI时代,更快速、更高效的学习与技能重塑对于儿童与成人都至关重要。学生可以以多维方式探索细胞机器或“亲历”历史事件;教师可借助互动环境进行个性化教学;而外科医生、工程师等专业人士则能在高度逼真的仿真环境中安全地练习复杂技能。
在所有这些领域中,前景无限广阔,但目标始终如一:AI应增强人类的专业能力,加速科学发现,并扩大人文关怀——而不是取代人类那份特有的判断力、创造力和共情力。
结语
过去十年,人工智能已发展为一场全球性的浪潮,在科技、经济乃至地缘政治层面都带来了转折。
然而,作为一名研究者、教育工作者,如今又身为创业者的我,最令我深受鼓舞的,仍是图灵 75 年前那个问题背后所蕴含的精神。我依然保有他那份对未知的好奇与惊叹——而正是空间智能带来的挑战,日复一日地激励着我前行。
这是人类历史上首次有望创造出能深度感知物理世界的机器,让它们成为我们应对重大挑战的真正伙伴。
无论是加速实验室中的疾病研究、彻底革新叙事方式,还是在人们病痛、受伤或衰老的脆弱时刻给予支持,我们正站在技术变革的临界点上——这项技术将升华我们最珍视的生活体验,开启更加深刻、丰富且充满赋能的未来生活。
在自然界催生出原始动物最初的空间智能雏形近五亿年后,我们有幸成为这样的一代技术人:
有望让机器也拥有类似的能力,并能将这种能力用于造福全人类。
若没有空间智能,我们对于“真正智能机器”的梦想将永远无法实现。
这一追求是我前行的“北极星”,加入我,共同追寻吧!

一起“点赞”三连↓
868

被折叠的 条评论
为什么被折叠?



