引言/导读
在人工智能领域,语言模型的惊人进展常常让人们误以为文本数据是通往通用人工智能(AGI)的唯一途径。然而,计算机视觉先驱、World Labs创始人李飞飞博士(Fei-Fei Li)的最新研究和深刻思考,正在将聚光灯重新投向被长期忽视但至关重要的领域:空间智能(Spatial Intelligence)。本次访谈深入探讨了如何超越大型语言模型(LLMs)的局限,让AI通过直接感知、视频和多模态交互来理解我们所处的物理世界。文章将基于李飞飞博士的论述,详细解析空间智能的重要性、世界模型的构建路径,以及我们距离真正具备物理理解能力的AI还有多远。
主体部分:构建超越文本的世界级智能
1. 空间智能:迈向具身与环境AI的关键一步
李飞飞博士强调,她近几年对空间智能的研究,是对其整个计算机视觉和视觉智能职业生涯焦点的延续。当下的技术复杂程度和深刻能力,已不再是仅仅停留在盯着一张图片或简单理解一段视频的水平。
知识的局限性:文本并非世界的全部
大型语言模型(LLMs)固然令人惊叹,但人类知识中,即便不是大部分,也有相当多的一部分并非以文本形式捕获。人类很大程度上是通过在世界中的交互而非语言进行学习。因此,要超越现有LLM的局限,模型需要获得更直接的世界体验,至少也要通过视频等方式来学习。
视觉智能的升级与连接
空间智能的研究深度结合了感知(Perception)能力,它同时连接了机器人技术(Robotics)、具身AI(Embodied AI)以及环境AI(Ambient AI)。她指出,无论是从科学探索的视角,还是从技术赋能的角度来看,我们都应该努力解锁空间智能技术,因为人类的许多智能工作,例如消防员在快速变化的环境中灭火,或者科学家对DNA双螺旋结构的推理和演绎,都超越了纯粹的语言范畴。
2. World Labs的实践:显式与高效的世界模型
李飞飞的初创公司World Labs及其首个产品Marble,致力于从模型的内部表征中生成令人难以置信的复杂3D空间。
Marble:生成一致且持久的3D空间
Marble的核心能力在于生成一致且持久的3D世界,允许观察者在其中移动。这种显式的3D输出是一种深思熟虑的方法,因为它对当今的各行各业都具有直接的实用价值。无论是创建视觉特效(VFX)、游戏、室内设计,还是为机器人或自动驾驶车辆进行


最低0.47元/天 解锁文章
2571

被折叠的 条评论
为什么被折叠?



