机器人如何快速适应新任务:元Q学习算法解析

强化学习(RL)是一种AI智能体与环境交互并根据交互过程中获得的奖励学习策略的技术。RL的进展通过在Atari等游戏上达到人类水平的表现得到了戏剧性展示。这一进展的关键是使用游戏模拟器生成大量数据。然而,将这一进展转化为现实世界的应用,例如装配线机器人或帮助老年人居家生活的机器人,存在两大障碍。首先,机器人复杂且脆弱;采取随机动作进行学习可能会损坏机器人或其周围环境。其次,机器人运行的环境通常与其训练环境不同。例如,一辆自动驾驶汽车可能必须在与其训练地点不同的城市区域工作。我们如何才能构建能够应对新场景的学习机器?

在一篇将在国际学习表征会议上发表的论文中,我们描述了一种名为MQL(元Q学习)的新型强化学习算法,它使AI智能体能够快速适应熟悉任务的新变体。

学习如何学习

与其他的“元学习”算法一样,在MQL中,智能体在大量相关任务(例如,如何拾取不同形状的物体)上进行训练,然后测试其学习这些任务新变体的能力。

MQL有两个关键区别。第一个区别在于,在训练期间,智能体学会计算针对每个任务的特定上下文变量。这使其能够为不同任务学习不同的模型:例如,拾取咖啡杯与拾取足球有很大不同。

第二个区别在于,在测试期间,MQL使用一种称为倾向性估计的统计技术,在其训练数据中搜索与正在学习的新任务交互相似的过往交互。这使得MQL能够以最少的交互适应新任务。

以上方的机器人为例,它希望学习拾取物体。在RL框架中,机器人会尝试拾取物体;每次成功拾取一个物体时它会获得奖励,如果掉落则会受到惩罚。经过反复试验,机器人学会了一种策略,使其能够拾取训练集中的所有物体。然而,如果该策略包含针对不同物体的不同交互模型,它的表现可能会更好。

这是MQL背后的第一个关键思想:机器人学习一个能够区分马克杯模型和足球模型的上下文。MQL使用门控循环单元(GRU)神经网络创建任务的表征,整个系统都以该表征为条件。

重用数据

上下文有助于系统预测处理新任务(例如,拾取一瓶水)的模型。然而,调整该模型仍然需要大量的训练样本。这就引入了MQL的第二个关键组成部分:其倾向性估计的使用。

倾向性分数表示给定样本来自两个分布中任意一个的几率。MQL使用倾向性估计来确定训练数据中哪些部分与测试任务数据接近:例如,拾取瓶子比拾取足球更接近拾取马克杯。然后,模型可以从相关的训练数据中采样,从而补充来自新任务的数据,以便更有效地进行适应。

我们在2019年7月的不确定性人工智能会议上发表的“P3O:策略上策略下策略优化”中也使用了倾向性估计。该技术同样有助于减少训练强化学习算法所需的样本数量。

随着AI系统处理越来越大的应用集,可用于训练的数据量开始显得不足。像MQL这样的技术是一种利用现有数据引导新任务学习的方法,可以显著减少训练AI系统的数据需求。
更多精彩内容 请关注我的个人公众号 公众号(办公AI智能小助手)或者 我的个人博客 https://blog.qife122.com/
对网络安全、黑客技术感兴趣的朋友可以关注我的安全公众号(网络安全技术点滴分享)

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值