青稞社区主页:http://qingkeai.online/
原文:https://mp.weixin.qq.com/s/iVEMbuW9iIHfBzo19CjM6Q
李飞飞&谢赛宁空间智能新作!“认知地图+语言推理+RL优化”是逼近人类空间认知能力的有效路径
VLM 可以像人类一样构建空间心智模型吗? 人类可以从几个视角想象完整场景,从有限的视角和部分观察,对家具后面看不见的物体/超出当前视野的物体进行推理。

我们的新基准测试MINDCUBE包含3,268张图像的21,154个问题,揭示了现有VLMs在这方面存在严重不足,表现接近随机水平。
通过MINDCUBE,我们系统评估了VLMs构建稳健空间心理模型的能力,包括表示位置(认知映射)、方向(视角转换)和动态(针对"假设性"移动的心理模拟)。我们探索了三种帮助VLMs近似空间心理模型的方法,包括未见的中间视图、自然语言推理链和认知地图。

最显著的改进来自"先映射后推理"的协同方法,联合训练模型首先生成认知地图,然后基于地图进行推理。通过训练模型在这些内部地图上推理,准确率从37.8%提升到60.8%(+23.0%)。加入强化学习后,性能进一步提升至70.7%(+32.9%)。

我们的关键发现是,空间心理模型的搭建——主动构建并利用内部结构化空间表征,结合灵活的推理过程——显著改善了对不可见空间的理解。
7月19日上午10点,青稞Talk 第64期,纽约大学访问学生尹柏乔和西北大学博士生王启能,将直播分享他们与李飞飞&谢赛宁等人合作的,在空间智能领域上的最新成果:MindCube,探讨空间智能可能的新路径。
分享嘉宾
尹柏乔, 纽约大学访问学生,专注空间智能研究。在西北大学Manling Li老师组内实习期间,作为共同第一作者完成了Spatial Mental Modeling from Limited Views,同时,他还维护了一个空间推理的GitHub汇总项目。此前,他曾在上海人工智能实验室和北京大学实习,关注时序与场景理解。
王启能,西北大学计算机科学一年级博士生,师从导师Manling Li,专注空间智能与具身智能体研究。作为共同第一作者,他在 NeurIPS-24 提出 Embodied Agent Interface(EAI),获 Oral 展示,并斩获SoCal NLP Symposium最佳论文奖;2025 年发布 RAGen 框架,GitHub 开源获 2k+ stars。他的工作从接口设计到自进化推理,推动具身智能体在多任务场景中的规划与决策能力,目前正探索VLM在具身智能领域中做为世界模型理解场景动态的可行性。
主题提纲
MindCube:空间智能的实现路径,探究 VLMs 构建稳健空间心理模型的能力
1、VLM 可以像人类一样构建空间心智模型吗?
2、MindCube 解析及 VLMs 构建稳健空间心理模型能力评估
3、三种让 VLMs 近似空间心理模型的方法
4、探讨空间智能的未来
直播时间
7月19日10:00 - 11:00
1142

被折叠的 条评论
为什么被折叠?



