1. 核心问题与挑战
传统机器人学习存在两大瓶颈:
- 数据效率低下:依赖特定场景的机器人操作数据(如抓取、推压),收集成本高
- 泛化能力局限:模型仅能完成训练中出现过的任务,无法应对长尾场景
RT-2的创新目标:利用互联网规模的视觉语言预训练知识,实现机器人技能的零样本(zero-shot)迁移
2. 方法论突破
2.1 统一语义空间构建
-
数据范式革新:
- 将机器人动作表示为"语言化"Token序列(如
move_to(x=0.3,y=0.2)
) - 与视觉语言数据共同输入Transformer,建立跨模态联合嵌入空间
- 将机器人动作表示为"语言化"Token序列(如
-
模型架构:
class RT2(nn.Module): def __init__(self): self.vision_encoder = ViT-22B # 视觉编码器 self.tokenizer = ActionTokenizer() # 动作分词器 self.transformer = Transformer-XL # 跨模态融合 def forward(self, image, text): img_tokens = self.vision_encoder(image)