Meta-Q-Learning
如有错误,欢迎指正
本文翻译为机翻,仅作初步了解学习使用,需要用到的时候再回来整理。
原文链接: https://arxiv.org/pdf/1910.00125v1.pdf.
如有侵权,请私信本人。
参考链接:https://zhuanlan.zhihu.com/p/109064006.
摘要
介绍了元强化学习(Meta-Q-Learning,MQL)的一种新的off-policy算法Meta-RL。MQL建立在三个简单的思想之上。首先,我们证明了Q学习与最先进的meta-RL算法相比是有竞争力的,如果给定一个上下文变量来表示过去的轨迹。第二,使用多任务目标使训练任务的平均报酬最大化是元训练RL策略的有效方法。第三,元训练回放缓冲区中的过去数据可以被重用,以便使用off-policy更新来调整新任务的策略。MQL利用倾向估计的思想来这样做,从而放大了可用于适应的数据量。在标准连续控制基准测试上的实验表明,MQL与最先进的meta-RL算法相比有优势。
Introduction
强化学习(RL)算法在模拟数据上表现出良好的性能。然而,要将这种性能转化为真实的机器人,有两个主要的挑战:(i)机器人是复杂和脆弱的,无法进行广泛的数据收集;(ii)一个真实的机器人可能面临一个不同于它所训练的模拟环境的环境。这推动了元强化学习(meta-reinforcement Learning,meta-RL)的研究,meta-RL开发了在大量不同环境(如模拟环境)上进行“元训练”的算法,旨在适应数据较少的新环境。

今天meta-RL的工作情况如何?图1显示了两个典型的meta-RL算法在四个标准连续控制基准上的性能。我们将它们与以下简单基线进行了比较:一个非策略RL算法(由Fujimoto等人提出的TD3)。(2018b)),并对其进行了训练,以使所有训练任务的平均回报最大化,并修改为使用表示轨迹的“上下文变量”。图中的所有算法都使用相同的评估协议。令人惊讶的是,这种基于非元学习的简单方法与最先进的meta-RL算法相比具有竞争力。这是我们论文的第一个贡献:我们证明,没有必要对策略进行元训练,以便在现有基准上做得更好。
我们的第二个贡献是一个名为meta-Q-Learning(MQL)的非策略meta-RL算法,它建立在上述结果的基础上。MQL使用了一个简单的元训练过程:它使用off-policy更新来最大化所有元训练任务的平均回报。

式中,l’k(θ)是对任务Dk(θ)获得的序列τ进行客观评估,例如,单步时间差(TD)误差将设置为l`k(θ)=TD2(θ;τ)。这个目标,我们称之为多任务目标,是最简单的元训练形式。
为了使策略适应新任务,MQL示例从元训练重播缓冲区获得序列,该缓冲区与新任务中的相似。这会放大可用于适应的数据量,但由于潜在偏差较大,很难做到。我们使用倾向性估计文献中的技术来执行此适应,MQL的off-policy更新对执行此操作至关重要。MQL的自适应阶段解决

其中,Dmeta是元训练回放缓冲区,倾向性得分β(τ;Dnew,Dmeta)是序列τ属于Dnew或Dmeta的几率,ESS是Dnew和Dmeta之间的有效样本大小,它是新任务与元训练任务类似的度量。第一个部分计算新任务的策略更新,第二个部分对旧数据执行β(·)加权的策略更新,而第三个部分是自动调整的近端部分,防止在适应期间策略的退化。我们在第4.2节中进行了广泛的实验,包括使用标准metarl基准进行烧蚀研究,这些基准证明,即使MQL策略比现有算法的时间步长更少,也能获得更高的新任务平均回报。
background
这一节介绍了表示法并形式化了meta-RL问题。在第2.2节中,我们讨论了估计两个概率分布之间重要性比的技术。考虑马尔可夫决策过程表示为

其中xt∈X⊂rd是状态,ut∈U⊂rp是动作。用k∈{1,,,n}参数化fk,其中每个k对应一个不同的任务。分布pk0表示初始状态分布,ξt表示动力学中的噪声。在给定确定性策略uθ(xt)的情况下,无限时间范围内γ-折扣未来报酬r k t:=r k(xt,uθ(xt))的作用下值函数为

请注意,我们假设不同的任务具有相同的状态和动作空间,并且可能只在它们的动态fk和奖励函数rk上有所不同。给定一个任务k∈{1,,,n},标准强化学习(RL)形式化求解

让我们表示与任务k和策略uθ(x)相关的所有状态、动作和奖励的数据集

我们通常将Dk称为“任务”。用于求解上上式

本文介绍了元强化学习算法Meta-Q-Learning(MQL),它是一种非策略性的off-policy算法,旨在通过元训练最大化所有任务的平均回报。MQL利用倾向估计放大了可用于适应新任务的数据量,实验表明MQL在标准连续控制基准测试上优于现有meta-RL算法。MQL的适应阶段结合元训练回放缓冲区的数据,利用logistic回归估计倾向得分,以有效利用过去的数据进行策略调整。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



