具身智能之RT1

RT-1是一种Transformer架构,旨在解决机器人学习中的泛化问题,通过开放式任务无关训练和高效模型处理多样化的机器人数据。实验结果显示,RT-1在任务执行、泛化能力和鲁棒性方面超越现有模型,展示了在真实世界控制中的潜力。
部署运行你感兴趣的模型镜像

标题: RT-1: Robotics Transformer for Real-World Control at Scale

论文: https://arxiv.org/pdf/2212.06817.pdf

导读

机器人学习领域的泛化问题是指机器人模型能够将在特定任务、环境或条件下学到的知识和技能应用到新的、未见过的任务、环境或条件的能力。在现实世界中,机器人面临的任务和环境是多样且不断变化的,因此泛化能力对于机器人的实用性和灵活性至关重要。以下是机器人学习中泛化问题的几个关键方面:

  1. 任务泛化:
    机器人可能在特定任务上接受了训练,例如抓取特定的物体,但当面对新的形状、大小或材质的物体时,机器人需要能够泛化其学到的技能以成功执行新任务。
  2. 环境泛化:
    机器人在学习时可能局限于特定环境,如特定的房间或实验室。环境泛化问题涉及到机器人如何将在一个环境中学到的技能应用到具有不同布局、光照条件或其他特征的新环境中。
  3. 条件泛化:
    机器人可能在特定条件下进行训练,例如在无干扰的情况下执行任务。条件泛化要求机器人能够处理新条件下的变化,如在有其他物体干扰或在不同时间段进行操作。
  4. 跨机器人泛化:
    不同机器人的物理结构和传感器配置可能有很大差异。跨机器人泛化问题涉及到一个机器人学到的技能能否被另一个具有不同形态或能力的机器人所复现。
  5. 跨时间泛化:
    机器人需要能够随时间保持其性能,即使在经过长时间未使用或在技能未被频繁练习的情况下。

思路

RT1的出现就是为了解决:

  • **机器人学习中的泛化问题。**尤其是在真实世界控制任务中,模型需要能够处理多样化的任务、环境和对象。

  • **机器人数据收集的难度和成本较高问题。**训练具有良好泛化能力的学习模型,解决了如何在机器人领域中利用大规模、多样化的任务无关数据集来训练模型的问题

方法

研究者们提出了一个名为RT-1的Transformer架构,该模型通过开放式任务无关训练和高容量架构来吸收多样化的机器人数据。RT-1模型结合了FiLM(Feature-wise Linear Modulation)调节的EfficientNet、TokenLearner以及Transformer,以实现高效的推理速度和实时控制的可行性。
RT-1 的输入由图片序列、自然语言指令构成,输出由机械臂运动的目标位姿( x, y, z, roll, pitch, yaw)、gripper stαtus 、模式转换指令构成。

核心方法

The architecture diagram of RT-1

Instruction and image tokenization

使用预训练的EfficientNet和Universal Sentence Encoder来处理图像和文本指令,提取特征。通过FiLM层将图像特征和文本嵌入结合起来,以增强模型对任务相关特征的提取。

  • 6张动作视频历史帧序列(分辨率300×300)输入到预训练的ImageNet EfficientNet-B3模型中得到9×9×512 的spatial feature map 然后flatten得到81个visual tokens
  • 为了融合语言指令,RT-1使用Universal Sentence Encoder(USE)对指令进行embedding,然后将这个embedding作为预训练的FiLM(Feature-wise Linear Modulation)层的输入
  • RT-1的图像和指令tokenization总共有16M的参数,包含26层MBConv块和FiLM层,输出 81 个vision-language tokens。
TokenLearner

TokenLearner

使用TokenLearner模块来减少Transformer需要处理的token数量,从而提高推理速度

  • 为了进一步压缩需要处理的token数量并加快推理速度,RT-1采用了TokenLearner,这是一个element-wise attention module,它学习如何将大量token映射到更少的token集合中。
  • 实现思路:
    • 计算一个空间注意力图,突出显示重要区域(使用卷积层或 MLP)。
    • 然后将这个空间自注意力图应用到输入中,来为每个区域进行不同的加权(忽略不必要的区域),并将结果空间池化,来生成最终学习的 token。
  • TokenLearner将来自FiLM-EfficientNet层的81个视觉token降采样到8个最终token,这些token随后被传递给Transformer层。
Decoder-only Transformer
  • 采用Transformer模型来学习图像、文本和动作之间的映射关系,并输出离散化的动作token。
  • 实现思路:
    • 讲6张图的序列,每张图的8个token concat 成48个token
    • 输入到一个decoder-only的Transformer里,包含有8个自注意力层和19M的参数,用于输出action token。
Action tokenization
  • action token在RT-1中被离散化为256个区间。这包括臂部运动的7个维度(x、y、z、滚转、俯仰、偏航、夹持器开度)和基座运动的3个维度(x、y、偏航)。
  • RT-系列训练中使用的动作字符串表示。这样一个字符串的例子可以是一系列机器人动作令牌号码,例如“1 128 91 241 5 101 127 217”,其中每个数字代表一个特定的动作区间(旋转、位置变化)。
    • 对所有的 action 进行归一化,然后拼接,得到下面这个轨迹

token

实验

论文使用Everyday Robots公司的移动操作机器人在三个环境中进行评估:两个真实的办公室厨房和一个模拟训练环境。评估包括对训练任务的性能测试,以及对新任务、干扰物和背景的泛化能力测试。

数据集

  • RT-1使用了来自13个机器人的约130k个演示数据,这些数据在17个月的时间里收集,覆盖了700多个不同的任务指令。

实验目标

  • 评估RT-1在学习大量指令、泛化到新任务、环境和对象方面的能力。
  • 探索RT-1利用不同数据源(如仿真数据或其他机器人数据)的能力。
  • 测试RT-1在长时序任务中的表现,以及其在不同数据量和多样性下的表现。

指标

  • RT-1在执行训练任务上的成功率达到97%,在未见任务上的泛化能力达到76%,这比之前的模型有显著提高。
  • RT-1在处理干扰物和背景变化方面表现出色,成功率分别达到83%和59%。
  • 在长时序任务中,RT-1能够在SayCan框架中执行多达50个步骤的任务,显示出在真实厨房环境中组合多个技能的能力。

总结

RT-1是一个由Google开发的机器人学习模型,专注于提升机器人在真实世界任务中的泛化和实时控制能力。它结合了高效的Transformer架构和大规模数据集,能够处理多样化的任务并适应新环境。实验表明,RT-1在执行任务、泛化到新任务以及鲁棒性方面均优于现有模型,展现了其在机器人学习领域的潜力。

最后,诚邀对具身智能和多模态大模型等前沿AI技术感兴趣的同学加入CVHub官方知识星球,获取每日最新相关技术进展,共同探讨和推动人工智能领域的创新发展。在这里,您将有机会与同行交流心得,参与专业讨论,更有机会与行业专家进行深入互动,共同见证和塑造智能科技的未来。期待您的加入,让我们携手在人工智能的浪潮中乘风破浪!

您可能感兴趣的与本文相关的镜像

Qwen3-VL-8B

Qwen3-VL-8B

图文对话
Qwen3-VL

Qwen3-VL是迄今为止 Qwen 系列中最强大的视觉-语言模型,这一代在各个方面都进行了全面升级:更优秀的文本理解和生成、更深入的视觉感知和推理、扩展的上下文长度、增强的空间和视频动态理解能力,以及更强的代理交互能力

### 技术介绍 具身智能 RT-2 是一种结合了人工智能与机器人技术的创新模型,旨在通过视觉、语言与行动的融合,重新定义自动化和智能控制的标准。该模型不仅集成了前沿科技,还以其卓越的技术架构和广泛的应用场景,为智能时代的开启提供了新的可能性。RT-2 的设计目标是使机器人能够更好地理解和适应环境,从而执行更为复杂的任务[^1]。 ### 应用场景 RT-2 的应用场景非常广泛,涵盖了从工业自动化到家庭服务等多个领域。在工业环境中,RT-2 可以用于提高生产线的灵活性和效率,例如通过视觉识别和语言处理能力来优化物料搬运和装配过程。在家庭服务领域,RT-2 可以作为智能家居助手,帮助用户完成日常任务,如清洁、烹饪和娱乐控制等。此外,RT-2 还可以应用于医疗护理、教育辅导和安全监控等领域,为用户提供更加个性化和高效的服务[^1]。 ### 示例代码 以下是一个简单的 Python 代码示例,展示了如何使用 RT-2 模型进行基本的任务执行: ```python # 假设有一个 RT-2 模型类 class RT2Model: def __init__(self): # 初始化模型参数 pass def perceive_environment(self, environment_data): # 处理环境数据,如图像和声音 print("感知环境:", environment_data) return "processed_data" def make_decision(self, processed_data): # 根据处理后的数据做出决策 print("做出决策:", processed_data) return "action" def execute_action(self, action): # 执行具体的动作 print("执行动作:", action) # 创建 RT-2 模型实例 rt2 = RT2Model() # 模拟环境数据 environment_data = {"image": "kitchen", "sound": "blender"} # 执行任务 processed_data = rt2.perceive_environment(environment_data) action = rt2.make_decision(processed_data) rt2.execute_action(action) ``` ### 相关问题 1. RT-2 模型是如何实现视觉、语言与行动的融合的? 2. RT-2 在工业自动化中的具体应用案例有哪些? 3. RT-2 模型在家庭服务领域的优势是什么? 4. RT-2 模型的未来发展和研究方向是什么?
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

CVHub

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值