【论文精读】RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control-优快云博客

1 论文

团队：Google Deepmind
时间：2023年
论文名称：RT-2: Vision-Language-Action Models Transfer Web Knowledge to Robotic Control

问题：想要机器人能够获得足够强大的能力，暴力的方法就是采集足够大量的数据 millions of robot interaction trials，但是从成本角度考虑并不现实。

已知：目前VLM在VQA，推理等方面有强大的能力，可以给出机器人的高阶指令high-level commands，需要各种controller去给出指令，无法VLM自己给出直接用于控制的低阶指令Cartesian end-effector commands

提出问题：如何将预训练好的VLM用于端到端的机器人控制，从而提高泛化性和语义推理能力？

论文采用了预训练模型：PaLI-X和PaLM-E

注意：该论文直接使用了预训练模型，其预训练的知识均为网络数据，缺少物理世界的认识。在下一步的微调中模型才逐步理解物理世界，比如抓，取等。

联合训练co-fine-tune
该论文对比了3种方案：

联合训练比例：

机器人动作数据来源：13台机器人收集了17个月，场景主要是office和kitchen。

轨迹维度：8维

1个标志位，表征动作是否成功完成
7个自由度，分别是3个机械臂移动，3个机械臂转动，和1个夹爪开合幅度the level of extensions of the robot gripper。每个自由度的连续值被离散成256个bins，相当于从回归任务变成了分类任务。

轨迹被token化形成text tokens，和nature language tokens的表征方法一致。

针对网络数据，输出vocabulary保持不变
针对机器人动作数据，限制给出的词表范围，防止输出不可执行的指令

由于模型参数都是Billion十亿级别，所以一般的GPU顶不住。
采用了多TPU的云端服务multi-TPU cloud service

在如下3个方面，表现好：

目的：让模型在预测action之前，先输出plan
方法：微调
结果：可以解决更加复杂的问题answer more sophisticated commands

模型还不能学习分布外的动作。VLM能让其泛化到分布外的指令，但是动作仍然受限。
数据集不足，是否能让它看视频学习new skills could be acquired through new data collection paradigms such as videos of humans