机器人快速适应新任务的元强化学习技术

机器人如何快速适应新任务

强化学习(RL)是一种AI智能体与环境交互并根据交互过程中获得的奖励学习策略的技术。RL的进展在Atari等游戏上达到人类水平的表现得到了显著展示。这一进展的关键是使用游戏模拟器生成大量数据。

将这一进展转化为实际应用(如装配线机器人或帮助老年人的家用机器人)存在两个障碍。首先,机器人复杂且脆弱;通过随机行动学习可能会损坏机器人或其周围环境。其次,机器人操作的环境通常与其训练环境不同。例如,自动驾驶汽车可能需要在与训练区域不同的城市区域工作。我们如何构建能够处理新场景的学习机器?

在我们将于国际学习表示会议上发表的一篇论文中,我们描述了一种名为MQL(元Q学习)的新强化学习算法,使AI智能体能够快速适应熟悉任务的新变体。

学会学习

与其它"元学习"算法一样,使用MQL的智能体在大量相关任务(例如如何拾取不同形状的物体)上进行训练,然后测试其学习这些任务新变体的能力。

MQL有两个关键区别。首先是在训练期间,智能体学习计算每个任务特定的上下文变量。这使其能够为不同任务学习不同模型:例如,拾取咖啡杯与拾取足球有很大不同。

其次,在测试期间,MQL使用称为倾向估计的统计技术在其训练数据中搜索与正在学习的新任务相似的过去交互。这使得MQL能够以最少的交互适应新任务。

考虑一个想要学习拾取物体的机器人。在RL框架中,机器人会尝试拾取物体;每次成功拾取时会获得奖励,掉落时会受到惩罚。经过重复试验,机器人学习到一个策略,使其能够拾取训练集中的所有物体。然而,如果该策略包含不同物体的不同交互模型,它的表现可能会更好。

这是MQL背后的第一个关键思想:机器人学习一个区分杯子和足球模型的上下文。MQL使用门控循环单元(GRU)神经网络创建任务的表示,整个系统都以该表示为条件。

重用数据

上下文帮助系统预测处理新任务(比如拾取水瓶)的模型。然而,调整该模型仍然需要大量训练样本。这引入了MQL的第二个关键组成部分:使用倾向估计。

倾向得分表示给定样本来自两个分布中任一个的几率。MQL使用倾向估计来确定训练数据的哪些部分与测试任务数据接近:例如,拾取瓶子比拾取足球更接近拾取杯子。然后模型可以从相关训练数据中采样,增加新任务的数据,从而更有效地适应。

我们还在"P3O:策略开启策略关闭策略优化"中使用了倾向估计,该研究于2019年7月在人工智能不确定性会议上发表。在那里,该技术也有助于减少训练强化学习算法所需的样本数量。

随着AI系统处理越来越大的应用集,可用于训练的数据量开始显得不足。像MQL这样的技术是一种从现有数据中引导新任务学习的方法,可显著减少训练AI系统的数据需求。

研究领域

  • 机器学习
  • 机器人技术

标签

  • 人工智能
  • 强化学习
  • 元学习
  • 学习算法
  • ICLR
    更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
    对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值