
机器学习 (ML) 研究的多个子领域(例如计算机视觉和自然语言处理)的最新重大进展是通过一种共享的通用方法实现的,该方法利用大型、多样化的数据集和能够有效吸收所有数据的表达模型。尽管已经有各种尝试将这种方法应于机器人技术,但机器人尚未利用高性能模型以及其他子领域。
有几个因素促成了这一挑战。首先,缺乏大规模和多样化机器人数据,这限制了模型吸收广泛机器人经验的能力。数据收集对于机器人技术来说特别昂贵且具有挑战性,因为数据集管理需要工程量大的自主操作,或使用人类远程操作收集的演示。第二个因素是缺乏可从此类数据集中学习并有效泛化的表达力强、可扩展且速度足够快的实时推理模型。
为了应对这些挑战,我们(谷歌)提出了Robotics Transformer 1 (RT-1),这是一种多任务模型,可以标记机器人输入和输出动作(例如,相机图像、任务指令和电机命令)以在运行时实现高效推理,它使实时控制成为可能。该模型在包含 130k 集的大规模、真实世界的机器人数据集上进行训练,该数据集涵盖 700 多项任务,使用来自Everyday Robots的 13 个机器人组成的车队收集(EDR) 超过 17 个月。我们证明,与现有技术相比,RT-1 可以显着改进对新任务、环境和对象的零样本泛化。此外,我们仔细评估和消融了模型和训练集中的许多设计选择,分析了标记化、动作表示和数据集组成的影响。最后,我们将RT-1 代码开源,希望它能为未来扩大机器人学习的研究提供宝贵的资源。
RT-1
RT-1 建立在一个转换器架构 (transformer)上,该架构从机器人的相机中获取图像的简短历史以及以自然语言表达的任务描述作为输入,并直接输出标记化的动作。
RT-1 的体系结构类似于针对具有因果掩蔽的标准分类交叉熵目标训练的当代仅解码器序列模型。其主要功能包括:图像标记化、动作标记化和标记压缩,如下所述。
图像标记化:我们通过在ImageNet上预

最低0.47元/天 解锁文章
2227





