面向通用机器人日常任务模拟,RoboCasa开源模型强势来袭

本文介绍利用基于Franka机器人的开源大模型框架RoboCasa,来自德克萨斯大学奥斯汀分校和 NVIDIA Research组。

原文参考:https://robocasa.ai/docs/introduction/overview.html

RoboCasa是一个大型模拟框架,用于训练具有一般能力的机器人执行日常任务。它以厨房场景为重点,以人为本,具有逼真而多样的环境。我们借助生成式 AI 工具(例如大型语言模型 (LLM) 和文本转图像/3D 生成模型)创建这些环境。我们提供 150 多个对象类别的 2,500 多个 3D 资产以及数十种可交互的家具和电器。作为首个版本的一部分,我们提供了一套 100 项任务,代表了广泛的日常活动。除了模拟任务外,我们还提供了高质量人类演示的数据集,并利用自动轨迹生成技术以极低的额外成本显著扩展训练数据量。

详细可www.pnprobotics.com

逼真多样的场景

图片

图片

图片

图片

在此初始版本中,我们专注于厨房场景。为了捕捉现实环境的复杂性和多样性,我们查阅了大量建筑和家居设计杂志,并汇编了一系列厨房布局和风格,反映了世界各地家庭厨房的多样性。我们根据标准尺寸和空间规格对这些厨房进行建模,并为其配备了大量可互动的家具和电器,包括橱柜、炉灶、水槽、微波炉等。

跨实施例支持

该模拟器支持多种形式的移动机械手,例如单臂移动Franka机器人平台、人形机器人和带臂的四足机器人。

每个厨房场景都配备了一系列可互动的家具和电器。几种类型的可互动物体都经过了铰接;例如,机器人可以打开和关闭微波炉的门,并转动炉灶上的旋钮。其他类型的可互动物体可以经历状态变化;例如,当转动炉灶上的旋钮时,相应的燃烧器就会打开。

使用文本到图像模型增强场景多样性

每个场景都可以通过替换大量高质量 AI 生成的纹理来定制,这些纹理是使用MidJourney的流行文本转图像模型创建的。我们分别为墙壁、地板、柜台和橱柜面板提供了 100 种纹理。这些纹理可以用作逼真的域随机化的一种形式,以大幅增加我们训练数据集的视觉多样性。

使用文本到 3D 模型创建多样化对象资产

我们整理了一个包含 2,500 多个对象的存储库,涵盖 150 多个类别,包括各种水果、蔬菜、包装食品和容器。部分对象资产来自Objaverse数据集,其余大部分对象由Luma AI提供的文本到 3D 对象生成模型生成。

培训基础机器人技能

我们专注于八项基础技能,作为支撑大多数家庭活动的长期操控行为的基本构建块:(1) 拾取和放置、(2) 开门和关门、(3) 开抽屉和关抽屉、(4) 旋转旋钮、(5) 转动杠杆、(6) 按下按钮、(7) 插入和 (8) 导航。当前版本包括 25 项原子任务,用于系统地训练和评估这些技能。

在大预言LLM指导下生成复合任务

复合任务涉及排序技能,以解决语义上有意义的活动,从补充厨房用品到煮咖啡。我们创建这些任务的目标是捕捉现实而多样的任务,这些任务反映了以人为中心的现实世界家庭活动的生态统计数据。我们使用大型语言模型 (LLM)(尤其是GPT-4)的指导来定义我们的任务,因为它们囊括了人类世界的大量常识和世界知识,因此可以根据环境和机器人的技能有效地提供任务候选。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值