介绍 一下 GR-3:大规模视觉 - 语言 - 动作模型

部署运行你感兴趣的模型镜像

GR-3:大规模视觉 - 语言 - 动作模型

GR-3(Generalist Robot-3)是字节跳动 Seed 团队于 2025 年 7 月发布的40 亿参数通用视觉 - 语言 - 动作 (VLA) 模型,专为机器人控制设计,能理解指令、感知环境并执行复杂操作。

核心特点

1. 卓越的泛化能力

  • 未知环境适应:在未见过的场景(收银台、会议室等)中保持高指令跟随率(>90%)
  • 新物体识别:对未见过的物体操作成功率达 57.8%(比基线 π0 高 17.8%)
  • 抽象指令理解:能解析 "把红色杯子旁边的书放到书架第三层" 等含抽象概念的指令

2. 高效微调与快速学习

  • 仅需 10 条 / 物体人类演示,就能将新物体操作成功率从 57.8% 提升至 86.7%
  • VR 辅助数据采集:通过 VR 设备收集人类轨迹,效率达 450 条 / 小时(传统机器人遥操作仅 250 条 / 小时)
  • 小样本迁移:只需少量示范即可快速适应新任务,大幅降低部署成本

3. 长序列与灵巧操作能力

  • 长程任务:能执行 "清理餐桌" 等多步骤任务,完成度超 95%
  • 精确指令跟随:在分步指令场景中成功率达 97.5%(基线 π0 仅 53.8%)
  • 柔性物体操控:能稳健操作布料、衣物等,挂衣任务完成度 86.7%,且适应未见过的款式

技术架构

GR-3 采用混合 Transformer (MoT) 架构,融合三大核心组件:
组件功能技术细节
视觉 - 语言编码器处理图像和语言指令基于 Qwen2.5-VL-3B-Instruct 预训练模型,提取环境特征和语义理解
动作预测模块生成机器人控制信号采用 Diffusion Transformer (DiT) 结合 Flow-Matching 技术,预测连续动作序列
多模态融合层整合感知与意图通过自适应层归一化 (AdaLN) 注入时序信息,增强动态指令跟踪能力
创新点:在 DiT 模块中引入RMSNorm 归一化,显著提升指令跟随精度,特别是处理抽象概念时

训练策略

GR-3 采用三位一体数据训练法
  1. 大规模视觉 - 语言数据(网页级图文):提供通用知识和语义理解,增强泛化能力
    • 实验表明:移除视觉 - 语言数据,模型对新指令和物体的性能下降超 40%
  2. 机器人轨迹数据(101 小时实验室采集):学习基本操作技能和物理交互
    • 涵盖 101 种物体,3.5 万 + 条轨迹,构建基础动作库
  3. 人类 VR 轨迹数据:获取人类灵巧操作经验,实现跨具身学习
    • 通过 Meta VR 设备采集,使模型快速掌握精细操作技巧

性能表现(与 π0 对比)

测试场景GR-3π0 (基线)提升
基础场景指令跟随率 98.1%,成功率 96.3%-基准
未知环境成功率 > 90%-环境泛化性强
未知指令成功率 77.1%40%+37.1%
未知物体成功率 57.8%约 40%+17.8%
长序列任务指令跟随成功率 97.5%53.8%+43.7%
柔性操作挂衣任务完成度 86.7%-突破传统局限
数据来源:字节跳动 GR-3 技术报告,2025 年 7 月

应用场景

1. 家庭服务

  • 智能家电控制、衣物整理、餐桌清理
  • 辅助老人和儿童,提供安全监控

2. 商业服务

  • 零售:货架整理、客户导购
  • 餐饮:餐具整理、食物打包
  • 酒店:客房服务、物品递送

3. 工业物流

  • 智能仓储:货物分拣、库存管理
  • 柔性生产:小批量多品种装配
  • 质量检测:产品外观和功能检查

4. 医疗康养

  • 康复训练辅助、病人转运
  • 医院导诊、药品分发
  • 远程医疗监测和支持

配套硬件:ByteMini 机器人

专为 GR-3 设计的双臂移动机器人,具备:
  • 22 个全身自由度:双臂各 7 自由度 + 移动底盘 + 升降机构
  • 球形腕关节:突破传统机械臂局限,在狭小空间实现类人手灵巧操作
  • 多感知系统:头部 + 双腕 RGB-D 摄像头,提供全方位视觉感知
  • 高可靠性:准直驱 (QDD) 执行器 + 全身柔顺控制,确保安全和精准

局限性与未来方向

当前挑战:

  • 极端新颖概念:对完全超出训练范围的抽象指令理解仍有局限
  • 复杂未知形状:对从未见过的物体形态操作成功率有待提升
  • 异常情况处理:在操作失败时的自主恢复能力有限(模仿学习普遍问题)

发展规划:

  1. 模型扩展:增大规模,引入更多视觉 - 语言数据,提升泛化能力
  2. 强化学习融合:突破模仿学习限制,增强异常情况应对和策略优化能力
  3. 多模态感知增强:整合触觉、力觉等更多传感器信息,提升操作精准度

总结

GR-3 代表了 ** 通用机器人 "大脑"** 的重要突破,通过融合大规模视觉 - 语言知识与机器人控制能力,实现了从感知到执行的端到端智能。其 "视觉 - 语言 - 动作" 三位一体架构,使机器人能理解抽象指令、适应新环境、操作新物体,为家庭和行业服务机器人规模化应用铺平道路。
注:以上信息基于 2025 年 7 月发布的 GR-3 技术报告,实际应用可能随技术迭代而变化。

您可能感兴趣的与本文相关的镜像

Seed-Coder-8B-Base

Seed-Coder-8B-Base

文本生成
Seed-Coder

Seed-Coder是一个功能强大、透明、参数高效的 8B 级开源代码模型系列,包括基础变体、指导变体和推理变体,由字节团队开源

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值