Gemini Robotics 1.5：通过先进的具身推理、思考和动作迁移，推动“通才机器人“的前沿

最新推荐文章于 2025-12-02 17:34:22 发布

原创最新推荐文章于 2025-12-02 17:34:22 发布 · 397 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器人 #人工智能

通用机器人需要对物理世界有深入的理解、先进的推理能力以及通用和灵巧的控制。

本报告介绍了最新一代的Gemini Robotics模型系列：Gemini Robotics 1.5，一种多实施视觉语言动作（VLA）模型，以及Gemini Robotic ER 1.5，一个最先进的体现推理（ER）模型。

我们正在整合三大创新。

首先，Gemini Robotics 1.5采用了一种新颖的架构和运动迁移（MT）机制，使其能够从异构、多实例的机器人数据中学习，并使VLA更具通用性。

其次，Gemini Robotics 1.5将动作与自然语言的多级内部推理过程交织在一起。这使机器人能够“先思考后行动”，显著提高了其分解和执行复杂的多步骤任务的能力，也使机器人的行为对用户更具可解释性。

第三，Gemini Robotics ER 1.5建立了体现推理的最新技术，即对机器人至关重要的推理能力，如视觉和空间理解、任务规划和进度估计。

这一系列模型共同带领我们迈向物理代理时代——使机器人能够感知、思考并采取行动，从而解决复杂的多步骤任务。

介绍：

真正的通用机器人需要对物理世界有深入的理解。我们之前的工作，双子座机器人（双子座机器人团队等人，2025），通过利用双子座丰富的世界知识创建视觉语言动作（VLA）模型，在直接机器人控制方面表现出令人印象深刻的交互性、通用性和灵活性，奠定了坚实的基础。我们现在介绍基于最新一代Gemini的Gemini Robotics 1.5（GR 1.5）系列机器人基础模型（Comanici等人，2025）。新的模型系列显著增强了Gemini Robotics的能力，并将Gemini的先进思维和代理范式带入了现实世界。它包括Gemini Robotics 1.5，这是一种具有强大推理和泛化能力的多实施例VLA模型（Bjorck等人，2025；Intelligence等人，2025，Wen等人，2025和Zitkovich等人，2023），以及Gemini Robotic ER 1.5，一种多面手视觉语言模型（VLM），在实施推理基准上实现了最新的技术水平。我们将这两个模型组合成一个代理系统，使机器人能够通过协调用户对话、高级推理和规划、代理工具使用和低级动作来解决复杂问题。

Gemini Robotics 1.5通过整合两个核心突破，推进了视觉语言动作（VLA）预训练的前沿。首先，一种新颖的架构和运动传输（MT）机制使模型能够从不同的机器人数据源中学习，形成对运动和物理的统一理解。这种多实施例的预训练允许GR1.5控制多个机器人，包括ALOHA、Bi-arm-Franka和Apollo类人机器人，而无需任何机器人专用的后训练，还可以将零样本从一个机器人转移到另一个机器人。其次，GR 1.5是一个思维VLA，可以明确地推理其行为，将思想流与身体动作交织在一起。

这使得该模型能够将视觉观察转化为基于语言的思维，简化复杂的指令，检测任务的成功或失败，提出恢复行为，并使机器人的动作对人类用户更具可解释性。