6款小游戏难倒所有顶级VLM！愤怒的小鸟让它们全军覆没，性能不如随机猜测

转载于 2025-11-16 12:42:59 发布 · 50 阅读

CC 4.0 BY-SA版权

首个系统性评估多模态大模型（VLM）交互式物理推理能力的综合基准来了。

淘天集团算法技术-未来生活实验室团队提出DeepPHY，通过六个极具挑战性的物理模拟环境，揭示了即便是顶尖VLM，在将物理知识转化为精确、可预测的交互控制时，仍存在显著的核心短板。

该论文已被AAAI 2026收录。

近期，基于视觉语言模型（VLM）的智能体在游戏、GUI操作和具身AI等动态交互环境中取得了显著进展。然而，现有基准或侧重于静态问答，或物理模型过于简化，难以全面评估智能体的真实物理推理能力。

为了弥补这一空白，淘天集团未来生活实验室团队提出了DeepPHY。

下面具体来看。

尽管VLM在静态图像理解上表现出色，但当它们作为智能体（Agent）进入需要与物理世界交互的动态环境时，其性能往往不尽人意。这暴露出现有基准的局限性：

物理推理是世界模型和具身智能的基石，为了深入探究VLM的物理推理能力，淘天未来生活实验室推出了DeepPHY——首个专为此目的设计的综合基准框架，它将六个不同的物理模拟器融合，创造出 VLM 交互式物理推理的考场。

在这些环境中，智能体必须通过持续的交互来感知和理解物理世界的因果关系，从而系统性地衡量其“物理智商”。

在此基础上，研究人员对17个主流的开源与闭源VLM进行了全面的实证研究，揭示了它们在物理交互、规划及环境适应等方面的不足。

DeepPHY集成了六个各具特色的物理挑战环境，从简单到复杂，全面覆盖了从基础物理（碰撞、重力）到复杂动力学（多体动力学、绳索张力）的多个维度。

PHYRE：在静态的2D物理场景中，通过放置一个红色球，让绿色球最终碰到蓝色球。考验模型的前瞻性规划，能否设计一次动作引发完美的连锁反应。
I-PHYRE：在精确的时刻移除特定灰色障碍物，引导所有红球落入下方深渊。测试模型的时序规划，要求在最佳时间点触发物理变化。
Kinetix：协同控制多部件（马达正反转、推进器开关），让绿色部件接触蓝色目标并避开红色障碍。检验模型的多部件协同控制与动态适应能力，需要根据实时视觉反馈持续调整策略。
台球：在高仿真台球环境 (Pooltool) 中遵循9球规则，将目标球击入袋中。考察对碰撞、旋转（Spin）和摩擦力等高级物理效应的理解与运用。
愤怒的小鸟 (Angry Birds)：设定角度与力度，用弹弓发射不同类型的有限小鸟摧毁所有绿猪。挑战模型对抛物线运动、结构力学和连锁反应的直觉掌握。
割绳子 (Cut the Rope)：切断绳索并利用气垫、泡泡等道具，将糖果送到小怪兽Om Nom口中。是对精确时机、动作序列和多道具协同的综合物理推理考验，被作者视为物理智能的终极考验。

为了让VLM能够专注于物理推理而非目标检测，研究人员对环境的观测和动作空间进行了标准化改造：

增强观测空间：通过在图像上叠加网格或ID标签，清晰标注可交互对象，降低感知负担，从而更聚焦于VLM物理推理智商的评估。
结构化动作空间：将连续或复杂的动作（如精确坐标、角度）转化为离散的、结构化的格式（如选择网格、输出JSON或Python函数调用），使VLM在零样本（zero-shot）设置下也能进行有效交互。