【论文精读】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

部署运行你感兴趣的模型镜像

1 论文

团队:Google Deepmind
时间:2023年
论文名称:RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

2 背景

问题:想要机器人能够获得足够强大的能力,暴力的方法就是采集足够大量的数据 millions of robot interaction trials,但是从成本角度考虑并不现实。

已知:目前VLM在VQA,推理等方面有强大的能力,可以给出机器人的高阶指令high-level commands,需要各种controller去给出指令,无法VLM自己给出直接用于控制的低阶指令Cartesian end-effector commands

提出问题:如何将预训练好的VLM用于端到端的机器人控制,从而提高泛化性和语义推理能力?

3 方案

3.1 预训练模型

论文采用了预训练模型:PaLI-X和PaLM-E

注意:该论文直接使用了预训练模型,其预训练的知识均为网络数据,缺少物理世界的认识。在下一步的微调中模型才逐步理解物理世界,比如抓,取等。

3.2 联合微调

联合训练co-fine-tune
该论文对比了3种方案:

  1. 从头训练 from scratch,效果特别差
  2. 用机器人动作数据robot action data进行微调,效果不如3
  3. 机器人动作数据robot action data和网络数据web-scale data联合微调,效果最好

联合训练比例:

  1. RT-2-PaLI-X中,机器人数据占50%
  2. RT-2-PaLM-E中,机器人数据占66%

机器人动作数据来源:13台机器人收集了17个月,场景主要是office和kitchen。

3.3 机器人动作/轨迹表征方法

轨迹维度:8维

  1. 1个标志位,表征动作是否成功完成
  2. 7个自由度,分别是3个机械臂移动,3个机械臂转动,和1个夹爪开合幅度the level of extensions of the robot gripper。每个自由度的连续值被离散成256个bins,相当于从回归任务变成了分类任务。

轨迹被token化形成text tokens,和nature language tokens的表征方法一致。

3.4 训练输出

针对网络数据,输出vocabulary保持不变
针对机器人动作数据,限制给出的词表范围,防止输出不可执行的指令

3.5 实时推理

由于模型参数都是Billion十亿级别,所以一般的GPU顶不住。
采用了多TPU的云端服务multi-TPU cloud service

  1. 55B的模型,运行频率在1-3Hz
  2. 5B的模型,5Hz

4 结论

4.1 从预训练VLM获得了泛化性

  1. 能够理解不在训练集中的指令 interpret commands not present in the robot training data
  2. 泛化性比RT-1/VC-1等高出一倍,成功率在60%左右
  3. 在Language table中,得分90,比RT1的74高

在如下3个方面,表现好:

  1. 符号理解symbol understanding。比如让机器人把obj放到数字3上
  2. 推理reasoning。比如把obj放到同颜色的碗中
  3. 人物识别human recognition。比如把obj放到talorswift的人像上。

4.2 使用思维链进一步提高了推理能力

目的:让模型在预测action之前,先输出plan
方法:微调
结果:可以解决更加复杂的问题answer more sophisticated commands

4.3 提出VLA模型

  1. 将输出动作的VLM模型成为VLA,vision-language-action

5 不足之处

  1. 模型还不能学习分布外的动作。VLM能让其泛化到分布外的指令,但是动作仍然受限。
  2. 数据集不足,是否能让它看视频学习new skills could be acquired through new data collection paradigms such as videos of humans

您可能感兴趣的与本文相关的镜像

Qwen3-VL-30B

Qwen3-VL-30B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值