基于强化学习的大规模多任务机器人训练

谷歌研究人员介绍了MT-Opt和Actionable Models,前者是用于多任务RL训练的系统,后者是无监督离线RL学习机器人技能的方法。通过这两种方法,他们实现了从大规模真实机器人数据中学习并执行多种任务,减少了学习成本,增强了泛化能力。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

发布人:Google 机器人团队高级研究员 Karol Hausman 和研究员 Yevgen Chebotar

 

通用机器人要想发挥最大的作用,就需要能够完成一系列的任务,如清洁、维护和运送。但是,使用离线强化学习 (RL)(智能体使用以前收集的数据开展训练,在试验和错误中学习的一种方法)来训练,即使是一个单一任务(例如抓取),也可能需要花费成千上万个机器人小时,此外还需要大量的工程来大规模实现机器人系统的自主操作。因此,随着任务数量的增加,使用目前的机器人学习方法来构建通用的日常机器人的计算费用高得变得令人望而却步。

图片

在多个机器人间收集多任务数据,不同的机器人会收集不同的任务数据

在其他大规模机器学习领域,如自然语言处理和计算机视觉,已经应用了一系列策略来分摊学习多种技能所需付出的努力。例如,对大型自然语言数据集进行预训练,可以实现对多种任务的少量或零样本学习,如问题回答和情感分析。然而,由于机器人收集自己的数据,机器人的技能学习带来了一系列独特的机会和挑战。将这一过程自动化是一项庞大的工程,需要付出大量努力,而有效地重复使用过去由不同机器人收集的机器人数据仍然是一个有待解决的问题。

今天,我们将介绍大规模开展机器人 RL 的两项新进展:

1. MT-Opt,一个用于数据收集自动化和多任务 RL 训练的全新多任务 RL 系统;

评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值