文章目录
1 论文
团队:Google Deepmind
时间:2023年
论文名称:RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control
2 背景
问题:想要机器人能够获得足够强大的能力,暴力的方法就是采集足够大量的数据 millions of robot interaction trials,但是从成本角度考虑并不现实。
已知:目前VLM在VQA,推理等方面有强大的能力,可以给出机器人的高阶指令high-level commands,需要各种controller去给出指令,无法VLM自己给出直接用于控制的低阶指令Cartesian end-effector commands
提出问题:如何将预训练好的VLM用于端到端的机器人控制,从而提高泛化性和语义推理能力?
3 方案
3.1 预训练模型
论文采用了预训练模型:PaLI-X和PaLM-E
注意:该论文直接使用了预训练模型,其预训练的知识均为网络数据,缺少物理世界的认识。在下一步的微调中模型才逐步理解物理世界,比如抓,取等。
3.2 联合微调
联合训练co-fine-tune
该论文对比了3种方案:
- 从头训练 from scratch,效果特别差
- 用机器人动作数据robot action data进行微调,效果不如3
- 机器人动作数据robot action data和网络数据web-scale data联合微调,效果最好
联合训练比例:
- RT-2-PaLI-X中,机器人数据占50%
- RT-2-PaLM-E中,机器人数据占66%
机器人动作数据来源:13台机器人收集了17个月,场景主要是office和kitchen。
3.3 机器人动作/轨迹表征方法
轨迹维度:8维
- 1个标志位,表征动作是否成功完成
- 7个自由度,分别是3个机械臂移动,3个机械臂转动,和1个夹爪开合幅度the level of extensions of the robot gripper。每个自由度的连续值被离散成256个bins,相当于从回归任务变成了分类任务。
轨迹被token化形成text tokens,和nature language tokens的表征方法一致。
3.4 训练输出
针对网络数据,输出vocabulary保持不变
针对机器人动作数据,限制给出的词表范围,防止输出不可执行的指令
3.5 实时推理
由于模型参数都是Billion十亿级别,所以一般的GPU顶不住。
采用了多TPU的云端服务multi-TPU cloud service
- 55B的模型,运行频率在1-3Hz
- 5B的模型,5Hz
4 结论
4.1 从预训练VLM获得了泛化性
- 能够理解不在训练集中的指令 interpret commands not present in the robot training data
- 泛化性比RT-1/VC-1等高出一倍,成功率在60%左右
- 在Language table中,得分90,比RT1的74高
在如下3个方面,表现好:
- 符号理解symbol understanding。比如让机器人把obj放到数字3上
- 推理reasoning。比如把obj放到同颜色的碗中
- 人物识别human recognition。比如把obj放到talorswift的人像上。
4.2 使用思维链进一步提高了推理能力
目的:让模型在预测action之前,先输出plan
方法:微调
结果:可以解决更加复杂的问题answer more sophisticated commands
4.3 提出VLA模型
- 将输出动作的VLM模型成为VLA,vision-language-action
5 不足之处
- 模型还不能学习分布外的动作。VLM能让其泛化到分布外的指令,但是动作仍然受限。
- 数据集不足,是否能让它看视频学习new skills could be acquired through new data collection paradigms such as videos of humans
815

被折叠的 条评论
为什么被折叠?



