发布人:Google 机器人团队高级研究员 Karol Hausman 和研究员 Yevgen Chebotar
通用机器人要想发挥最大的作用,就需要能够完成一系列的任务,如清洁、维护和运送。但是,使用离线强化学习 (RL)(智能体使用以前收集的数据开展训练,在试验和错误中学习的一种方法)来训练,即使是一个单一任务(例如抓取),也可能需要花费成千上万个机器人小时,此外还需要大量的工程来大规模实现机器人系统的自主操作。因此,随着任务数量的增加,使用目前的机器人学习方法来构建通用的日常机器人的计算费用高得变得令人望而却步。
在多个机器人间收集多任务数据,不同的机器人会收集不同的任务数据
在其他大规模机器学习领域,如自然语言处理和计算机视觉,已经应用了一系列策略来分摊学习多种技能所需付出的努力。例如,对大型自然语言数据集进行预训练,可以实现对多种任务的少量或零样本学习,如问题回答和情感分析。然而,由于机器人收集自己的数据,机器人的技能学习带来了一系列独特的机会和挑战。将这一过程自动化是一项庞大的工程,需要付出大量努力,而有效地重复使用过去由不同机器人收集的机器人数据仍然是一个有待解决的问题。
今天,我们将介绍大规模开展机器人 RL 的两项新进展:
1. MT-Opt,一个用于数据收集自动化和多任务 RL 训练的全新多任务 RL 系统;