Franka最多机器人数据集!最大开源DeepMind联手21家机构,整合60个数据集,发布Open X-Embodiment

谷歌 DeepMind 联手斯坦福大学等推出了 Open X-Embodiment Dataset,这是迄今为止最大的开源真实机器人数据集。它包含 100 多万条真实机器人轨迹,涵盖 22 个机器人实例,从单臂机器人到双手机器人和四足机器人。

在不同数据集上训练的大型高容量模型在有效处理下游应用方面取得了显著成功。在从 NLP 到计算机视觉等领域,这导致了预训练模型的整合,通用预训练主干成为许多应用的起点。这种整合可以在机器人技术领域发生吗?传统上,机器人学习方法会为每个应用程序、每个机器人甚至每个环境训练一个单独的模型。能否训练“通用”X 机器人策略,使其能够有效地适应新的机器人、任务和环境?

在本文中,提供了标准化数据格式和模型的数据集,以便在机器人操作的背景下探索这种可能性,同时提供了提供有效 X 机器人策略示例的实验结果。通过 21 个机构之间的合作收集了 22 个不同机器人的数据集,展示了 527 种技能(160266 个任务)。我们表明,基于这些数据训练的高容量模型(我们称之为 RT-X)表现出积极的迁移,并通过利用其他平台的经验来提高多个机器人的能力。

据了解,Open X-Embodiment 数据集覆盖各种环境和机器人变化,目前已面向研究社区开放,为了便于用户下载和使用,研究人员将不同来源的数据集转换为了统一的数据格式,未来,他们计划与机器人学习社区合作,共同促进该数据集的增长。

迄今为止最大的开源机器人数据集

据悉,Open X-Embodiment 是迄今为止最大的开源真实机器人数据集,涵盖了从单臂机器人到双臂机器人,再到四足机器人等 22 种不同形态的机器人,共包含超过 100 万条机器人轨迹和 527 项技能(160,266 项任务)。研究人员证明,相较于仅在单个机器人类型数据上训练的模型,在多个机器人类型数据上训练的模型表现更佳。

Open X-Embodiment 数据集的分布如下图所示,图 (a) 展示了 22 种形态机器人数据集的分布情况,其中 Franka 机器人最为常见。图 (b) 展示了机器人在不同场景的分布情况,Franka 机器人占据主导地位,其次是 Google Robot。图 (c) 则展示了每个形态机器人的轨迹分布情况,其中 xArm 和 Google Robot 贡献了最多的轨迹数量。图 (d,e) 分别展示了机器人具备的技能和其所用的物品,技能有 picking、moving、pushing、placing 等,物品有家用电器、食品和餐具等,种类繁多。

Open X-Embodiment 数据集
(a) 由来自 22 种机器人形态的 60 个独立数据集组成, Franka机器人数据领先
(b) 机器人在不同场景的分布情况,Franka机器人数据领先

(c) 不同机器人的轨迹数量
(d, e) 数据集中常见的技能和 Objects

汇集顶尖机构资源,推动机器人技术广泛应用

Open X-Embodiment 数据集由 60 个独立的数据集整合而成。

Berkeley Cable Routing 多阶段机器人电缆任务数据集

Berkeley Cable Routing 数据集由加州大学伯克利分校和 Intrinsic Innovation LLC 研究团队发布,共 27.92 GB,该数据集用于研究多阶段机器人操作任务,特别是应用于电缆布线任务。这个任务代表了复杂的多阶段机器人操作场景,要求机器人必须将电缆穿过一系列夹子,包括处理可变形物体、闭合视觉感知循环以及处理由多个步骤组成的扩展行为。

CLVR Jaco Play Dataset 遥控机器人片段数据集

CLVR Jaco Play Dataset 是一个专注于遥控机器人领域的数据集,共 14.87 GB,由南加州大学和 KAIST 的研究团队发布,它提供了 1,085 个遥控机器人 Jaco 2 的片段,并配有相应的语言注释。这个数据集对于研究机器人遥控、自然语言处理以及人机交互等领域的科学家和开发者来说,是一个非常宝贵的资源。

RT-1 Robot Action 真实世界机器人数据集

谷歌研究人员提出了多任务模型 Robotics Transformer (RT-1),该模型在新任务、环境和物体上的零样本泛化方面取得了显著改进,展示了优异的可扩展性和预训练模型特性。

RT-1 模型是在一个大规模真实世界机器人数据集(RT-1 Robot Action 数据集)上训练的,研究人员使用了 13 台 EDR 机械臂,每台机械臂配备有 7 个自由度的手臂、两指夹爪和移动底座,在 17 个月内收集了 13 万个片段,共 111.06 GB,每个片段被标注了机器人执行指令的文字描述。数据集中涵盖的高层次技能包括捡起和放置物品、开关抽屉、从抽屉中取出和放入物品、将细长物品竖直放置、推倒物体、拉餐巾纸和开罐子等,覆盖了使用多种不同物体的 700 多项任务。

Language-Table 机器人语言标签轨迹数据集

Google 团队 Robotics at Google 提出了一种框架,用于构建能够在现实世界中通过自然语言指令进行实时互动的机器人。通过在包含数十万条带有语言注释的轨迹数据集上进行训练,研究人员发现所得的策略能够执行比以往多 10 倍的指令,这些指令描述了现实世界中的端到端视听觉-运动技能。研究人员已经开源了研究所用的 Language-Table 数据集,该数据集包含了近 60 万条带有语言标签的轨迹,用于推动更先进、更有能力、可自然语言交互的机器人发展。

BridgeData V2 大规模机器人学习数据集

加州大学伯克利分校、斯坦福大学、谷歌 DeepMind 和 CMU 共同发布了 BridgeData V2 数据集,该数据集致力于促进可扩展机器人研究,包含在 24 个不同环境中收集的 60,096 条机器人轨迹。其中,24 个环境分为 4 类,大部分数据来自不同的 toy kitchens,包含水槽、炉灶和微波炉等,其余环境则包括各种桌面、toy sinks、toy laundry 等。数据集中包含的任务有拾取放置、推和清扫、开关门和抽屉,以及更复杂的任务如堆叠积木、折叠衣物和清扫颗粒介质,某些数据片段包含这些技能的组合。

为了增强机器人的泛化能力,研究人员在多种环境下收集大量的任务数据,这些环境中的对象、摄像头位置和工作区定位各有不同,每条轨迹都附有与机器人任务对应的自然语言指令。从这些数据中学到的技能可以应用于新对象和环境,甚至跨机构使用,这使得该数据集成为研究人员的重要资源。

BC-Z 机器人学习数据集

BC-Z 数据集由谷歌、Everyday Robots、加州大学伯克利分校和斯坦福大学共同发布,这个大规模机器人学习数据集旨在推动机器人模仿学习领域的发展,尤其是支持零样本任务泛化,即让机器人在没有先前经验的情况下,通过模仿学习来执行新的操作任务。

该数据集包含了超过 25,877 个不同的操作任务场景,涵盖了 100 种多样化的任务,这些任务通过专家级远程操作和共享自主过程来收集,涉及 12 个机器人和 7 名操作员,累计 125 小时的机器人操作时间。数据集可用于训练一个 7 自由度的多任务策略,该策略可根据任务的语言描述或人类操作视频调整,以执行特定任务。

为了开发 Open X-Embodiment 数据集,Deepmind与 20 多个机构的学术研究实验室合作,收集了 22 个机器人实例的数据,在超过 100 万个场景中展示了 500 多种技能和 150,000 个任务。该数据集是同类中最全面的机器人数据集。

RT-X:通用机器人模型

RT-X 以两个机器人变换器模型为基础。使用 RT -1 训练 RT -1-X ,这是用于大规模现实世界机器人控制的模型,使用RT-2训练 RT-2-X ,这是从网络和机器人数据中学习的视觉-语言-动作 (VLA) 模型。通过这种方式,表明,在给定相同模型架构的情况下,RT-1-X 和 RT-2-X 能够实现更高的性能,这要归功于它们所训练的更加多样化、跨具体化的数据。还表明,它们比在特定领域训练的模型有所改进,并表现出更好的泛化能力和新功能。

为了在合作大学中评估 RT-1-X,将其与针对特定任务(例如开门)开发的模型在相应数据集上的表现进行了比较。使用 Open X-Embodiment 数据集训练的 RT-1-X 平均比原始模型高出 50%。 

这项研究表明,跨具体化模型是可行的,无论是在 Google DeepMind 的机器人上,还是在世界各地不同大学的机器人上,其性能都有显著提高。未来的研究可以探索如何将这些进步与RoboCat的自我改进特性相结合,使模型能够根据自己的经验进行改进。另一个未来方向可能是进一步探究不同的数据集混合如何影响跨具体化泛化,以及改进的泛化如何实现。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值