Gemini Robotics 1.5:通过先进的具身推理、思考和动作迁移,推动“通才机器人“的前沿

通用机器人需要对物理世界有深入的理解、先进的推理能力以及通用和灵巧的控制。

本报告介绍了最新一代的Gemini Robotics模型系列:Gemini Robotics 1.5,一种多实施视觉语言动作(VLA)模型,以及Gemini Robotic ER 1.5,一个最先进的体现推理(ER)模型。

我们正在整合三大创新。

首先,Gemini Robotics 1.5采用了一种新颖的架构和运动迁移(MT)机制,使其能够从异构、多实例的机器人数据中学习,并使VLA更具通用性。

其次,Gemini Robotics 1.5将动作与自然语言的多级内部推理过程交织在一起。这使机器人能够“先思考后行动”,显著提高了其分解和执行复杂的多步骤任务的能力,也使机器人的行为对用户更具可解释性。

第三,Gemini Robotics ER 1.5建立了体现推理的最新技术,即对机器人至关重要的推理能力,如视觉和空间理解、任务规划和进度估计。

这一系列模型共同带领我们迈向物理代理时代——使机器人能够感知、思考并采取行动,从而解决复杂的多步骤任务。

介绍:

真正的通用机器人需要对物理世界有深入的理解。我们之前的工作,双子座机器人(双子座机器人团队等人,2025),通过利用双子座丰富的世界知识创建视觉语言动作(VLA)模型,在直接机器人控制方面表现出令人印象深刻的交互性、通用性和灵活性,奠定了坚实的基础。我们现在介绍基于最新一代Gemini的Gemini Robotics 1.5(GR 1.5)系列机器人基础模型(Comanici等人,2025)。新的模型系列显著增强了Gemini Robotics的能力,并将Gemini的先进思维和代理范式带入了现实世界。它包括Gemini Robotics 1.5,这是一种具有强大推理和泛化能力的多实施例VLA模型(Bjorck等人,2025;Intelligence等人,2025,Wen等人,2025和Zitkovich等人,2023),以及Gemini Robotic ER 1.5,一种多面手视觉语言模型(VLM),在实施推理基准上实现了最新的技术水平。我们将这两个模型组合成一个代理系统,使机器人能够通过协调用户对话、高级推理和规划、代理工具使用和低级动作来解决复杂问题。

Gemini Robotics 1.5通过整合两个核心突破,推进了视觉语言动作(VLA)预训练的前沿。首先,一种新颖的架构和运动传输(MT)机制使模型能够从不同的机器人数据源中学习,形成对运动和物理的统一理解。这种多实施例的预训练允许GR1.5控制多个机器人,包括ALOHA、Bi-arm-Franka和Apollo类人机器人,而无需任何机器人专用的后训练,还可以将零样本从一个机器人转移到另一个机器人。其次,GR 1.5是一个思维VLA,可以明确地推理其行为,将思想流与身体动作交织在一起。


这使得该模型能够将视觉观察转化为基于语言的思维,简化复杂的指令,检测任务的成功或失败,提出恢复行为,并使机器人的动作对人类用户更具可解释性。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值