[论文]鲁棒的对抗性强化学习
摘要
深度神经网络与快速模拟和改进的计算相结合,导致了最近在强化学习领域的成功。然而,目前大多数基于学习策略的方法不能推广,因为:(1)仿真和现实世界之间的差距太大,策略学习方法不能转移;(b)即使在现实世界中进行政策学习,数据稀缺也会导致从训练到测试场景的泛化失败(例如,由于不同的摩擦或物体质量)。受H∞控制方法的启发,我们注意到建模误差以及训练和测试场景中的差异都可以被视为系统中的额外力/干扰。本文提出了鲁棒对抗强化学习(RARL)的思想,在这种思想中,我们训练一个智能体在一个对系统施加干扰力的不稳定对手存在的情况下运行。联合训练的对手得到了强化——也就是说,它学会了一种最优的不稳定政策。我们将策略学习表述为零和极小极大目标函数。在多种环境下(倒立、半猎豹、游泳、跳跃、步行和蚂蚁)进行的大量实验最终证明,我们的方法(a)提高了训练稳定性;(b)对训练/测试条件的差异具有鲁棒性;和c)即使在没有对手的情况下也优于基线。
1.简介
诸如深度神经网络之类的大容量函数逼近器已经在强化学习领域取得了越来越大的成功。然而,这种策略学习方法的一个主要瓶颈是它们对数据的依赖:训练高容量模型需要大量的训练数据/轨迹。虽然这种训练数据可以很容易地从游戏等任务中获得(例如,末日,蒙特祖玛的复仇)(Mnih等人,2015),但真实世界物理任务的数据收集和策略学习具有重大挑战性。
对于现实世界的物理任务,有两种可能的方法来执行策略学习:
-
现实世界策略学习:第一种方法是在现实世界中学习智能体的策略。然而,现实世界中的培训过于昂贵、危险和耗时,导致数据稀缺。由于数据稀缺,训练往往被限制在有限的一组训练场景中,导致过度拟合。如果测试场景不同(例如,不同的摩擦系数),所学习的策略无法推广。因此,我们需要一种成熟的策略,这种策略能够在一系列场景中很好地推广。
-
在模拟中学习:逃避现实世界中数据稀缺的一种方法是将在模拟器中学习的策略转移到现实世界中。然而,模拟器的环境和物理与现实世界并不完全相同。如果学习的策略对建模错误不稳健,这种现实差距通常会导致不成功的转移(Christiano等人,2016;鲁苏等人,2016年)。
许多策略学习算法本质上是随机的,这一事实进一步加剧了测试泛化和模拟转移问题。对于许多艰苦的体力任务,如Walker2D (Erez等人,2011年),只有一小部分跑步会导致稳定的步行策略。这使得这些方法更加耗费时间和数据。我们需要的是一种方法,这种方法在不同的运行和初始化中学习策略时更加稳定/健壮,同时在培训期间需要更少的数据。
那么,我们如何对不确定性建模,并学习一种对所有不确定性都稳健的政策呢?我们如何模拟模拟和现实世界之间的差距?我们首先认识到,建模误差可以被视为系统中的额外力/干扰。
例如,测试时的高摩擦可能被模拟为接触点处抵抗运动方向的额外力。受这一观察的启发,本文提出了通过对抗代理对系统施加干扰力来建模不确定性的思想。此外,对手得到了强化——也就是说,它学会了一种最优策略来挫败原代理人的目标。我们提出的方法,鲁棒对抗强化学习(RARL),联合训练一对代理,一个主角和一个对手,主角学习完成最初的任务目标,同时对对手产生的干扰保持鲁棒性。
我们进行了广泛的实验来评估在多个开放的gym中的RARL。证明了方法是:(1)对模型初始化是鲁棒的:在给定不同的模型参数初始化和随机种子的情况下,学习的策略表现更好。这通过降低学习的敏感性缓解了数据稀缺问题。对建模误差和不确定性的稳健性:学习到的策略概括了不同的环境设置(例如,具有不同的质量和摩擦值)。
1.1RARL综述
我们的目标是学习一种策略,这种策略对于模拟中的建模错误或者训练和测试场景之间的不匹配是稳健的。例如,我们想学习Walker2D的策略,它不仅适用于carpet(训练场景),还适用于冰上行走(测试场景)。类似地,其他参数如助行器的质量在训练和测试期间可能会有所不同。一种可能性是列出所有这些参数(质量、摩擦力等)。)并学习针对不同可能变化的策略集合(Rajeswaran等人,2016)。但是,明确考虑模拟和真实世界之间的差异或训练/测试之间的参数变化的所有可能参数是不可行的。
我们的核心思想是通过系统中额外的力/干扰来模拟训练和测试场景中的差异。我们的假设是,如果我们能够学习一种对所有干扰都鲁棒的策略,那么这种策略将对训练/测试情况的变化鲁棒;因此可以很好地推广。但是有没有可能在所有可能的扰动下对轨迹进行采样?在不受约束的情况下,可能干扰的空间可能大于可能动作的空间,这使得采样轨迹在联合空间中更加稀疏。
为了解决这个问题,我们主张双管齐下:
-
模拟干扰的敌对智能体:我们不是对所有可能的干扰进行抽样,而是联合训练第二个智能体(称为对手),其目标是通过施加破坏稳定的力量来阻止最初的代理人(称为主角)。对手只因为主角的失败而得到奖励。因此,对手学会了抽样硬例子:干扰,这将使原来的智能体失败;主角学到了一个对对手制造的任何干扰都很稳健的策略。
-
结合领域知识的对手:开发对手的天真方法是简单地给它与主角相同的行动空间——就像驾驶学生和驾驶教练争夺双控汽车的控制权。然而,我们提出的方法要丰富得多,并且不限于对称的动作空间——我们可以利用领域知识来:将对手集中在主角的弱点上;由于对手处于模拟环境中,我们可以赋予对手“超能力”——以主角无法做到的方式影响机器人或环境的能力(例如,突然改变摩擦系数或质量等物理参数)。
2.背景
在深入研究RARL的细节之前,我们首先概述术语、标准强化学习设置和两人零和游戏,我们的论文就是从这些内容中受到启发的。
2.1 MDPs中的标准强化学习
在本文中,我们研究了由元组表示的连续空间MDPs, ( S , A , P , R , γ , s 0 ) (S, A, P, R, γ, s_0) (S,A,P,R,γ,s0),其中 S S S是一组连续状态, S S S是一组连续动作, P : S × A × S → R P : S × A × S → R P:S×A×S→R是转移概率, r : S × A → R r : S × A → R r:S×A→R是奖励函数, γ γ γ是折扣因子, s 0 s_0 s0是初始状态分布。
2.2 两人零和折扣游戏
对抗性设置可以表示为两人γ折扣零和马尔可夫博弈(Littman,1994;Perolat等人,2015年)。这个游戏MDP可以表示为元组: ( S , A 1 , A 2 , P , r , γ , s 0 ) (S,A_1,A_2,P,r,γ,s0) (S,A