李飞飞&谢赛宁空间智能新作！探究 VLMs 构建稳健空间心理模型的能力，以及未来可能的新路径

原创已于 2025-07-15 14:20:36 修改 · 424 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2025-07-15 14:19:28 首次发布

青稞Talk 专栏收录该内容

80 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

青稞社区主页：http://qingkeai.online/
原文：https://mp.weixin.qq.com/s/iVEMbuW9iIHfBzo19CjM6Q

李飞飞&谢赛宁空间智能新作！“认知地图+语言推理+RL优化”是逼近人类空间认知能力的有效路径

VLM 可以像人类一样构建空间心智模型吗？人类可以从几个视角想象完整场景，从有限的视角和部分观察，对家具后面看不见的物体/超出当前视野的物体进行推理。

我们的新基准测试MINDCUBE包含3,268张图像的21,154个问题，揭示了现有VLMs在这方面存在严重不足，表现接近随机水平。

通过MINDCUBE，我们系统评估了VLMs构建稳健空间心理模型的能力，包括表示位置(认知映射)、方向(视角转换)和动态(针对"假设性"移动的心理模拟)。我们探索了三种帮助VLMs近似空间心理模型的方法，包括未见的中间视图、自然语言推理链和认知地图。

最显著的改进来自"先映射后推理"的协同方法，联合训练模型首先生成认知地图，然后基于地图进行推理。通过训练模型在这些内部地图上推理，准确率从37.8%提升到60.8%(+23.0%)。加入强化学习后，性能进一步提升至70.7%(+32.9%)。

我们的关键发现是，空间心理模型的搭建——主动构建并利用内部结构化空间表征，结合灵活的推理过程——显著改善了对不可见空间的理解。

7月19日上午10点，青稞Talk 第64期，纽约大学访问学生尹柏乔和西北大学博士生王启能，将直播分享他们与李飞飞&谢赛宁等人合作的，在空间智能领域上的最新成果：MindCube，探讨空间智能可能的新路径。

分享嘉宾

尹柏乔, 纽约大学访问学生，专注空间智能研究。在西北大学Manling Li老师组内实习期间，作为共同第一作者完成了Spatial Mental Modeling from Limited Views，同时，他还维护了一个空间推理的GitHub汇总项目。此前，他曾在上海人工智能实验室和北京大学实习，关注时序与场景理解。

王启能，西北大学计算机科学一年级博士生，师从导师Manling Li，专注空间智能与具身智能体研究。作为共同第一作者，他在 NeurIPS-24 提出 Embodied Agent Interface（EAI），获 Oral 展示，并斩获SoCal NLP Symposium最佳论文奖；2025 年发布 RAGen 框架，GitHub 开源获 2k+ stars。他的工作从接口设计到自进化推理，推动具身智能体在多任务场景中的规划与决策能力，目前正探索VLM在具身智能领域中做为世界模型理解场景动态的可行性。