基于强化学习的大规模多任务机器人训练

原创

于 2021-05-07 10:22:50 发布 · 6k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

谷歌研究人员介绍了MT-Opt和Actionable Models，前者是用于多任务RL训练的系统，后者是无监督离线RL学习机器人技能的方法。通过这两种方法，他们实现了从大规模真实机器人数据中学习并执行多种任务，减少了学习成本，增强了泛化能力。

发布人：Google 机器人团队高级研究员 Karol Hausman 和研究员 Yevgen Chebotar

通用机器人要想发挥最大的作用，就需要能够完成一系列的任务，如清洁、维护和运送。但是，使用离线强化学习 (RL)（智能体使用以前收集的数据开展训练，在试验和错误中学习的一种方法）来训练，即使是一个单一任务（例如抓取），也可能需要花费成千上万个机器人小时，此外还需要大量的工程来大规模实现机器人系统的自主操作。因此，随着任务数量的增加，使用目前的机器人学习方法来构建通用的日常机器人的计算费用高得变得令人望而却步。

离线强化学习

https://ai.googleblog.com/2020/08/tackling-open-challenges-in-offline.html

在多个机器人间收集多任务数据，不同的机器人会收集不同的任务数据

在其他大规模机器学习领域，如自然语言处理和计算机视觉，已经应用了一系列策略来分摊学习多种技能所需付出的努力。例如，对大型自然语言数据集进行预训练，可以实现对多种任务的少量或零样本学习，如问题回答和情感分析。然而，由于机器人收集自己的数据，机器人的技能学习带来了一系列独特的机会和挑战。将这一过程自动化是一项庞大的工程，需要付出大量努力，而有效地重复使用过去由不同机器人收集的机器人数据仍然是一个有待解决的问题。

今天，我们将介绍大规模开展机器人 RL 的两项新进展：

1. MT-Opt，一个用于数据收集自动化和多任务 RL 训练的全新多任务 RL 系统；

2.&nbs

最低0.47元/天解锁文章

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。