【GAE】《High-Dimensional Continuous Control Using Generalized Advantage Estimation》译读笔记

High-Dimensional Continuous Control Using Generalized Advantage Estimation

摘要

Policy gradient methods 在 reinforcement learning 中是一种具有吸引力的方法,因为它们直接优化累积奖励,并且可以很直接地与非线性 function approximators 如 neural networks 一起使用。其两个主要挑战是通常需要大量的样本,以及尽管输入数据具有非平稳性但难以获得稳定而持续的改进(improvement)。本文通过价值函数来解决第一个挑战:在引入一定偏差的代价下,利用了类似TD(λ)的优势函数的指数加权估计器,显著降低了策略梯度估计的方差。本文通过对策略和价值函数都使用 trust region optimization procedure 来解决第二个挑战,其中 the policy and the value function 都由神经网络表示。

本文方法在极具挑战性的 3D locomotion tasks 上产生了强有力的实证结果,用于双足和四足仿真机器人学习奔跑步态,以及训练双足机器人从地面躺姿状态开始自主站立的策略。与以往大量使用手工设计策略表示的研究不同,本文的神经网络策略(neural network policies)直接从原始运动学数据(kinematics)映射到关节扭矩输出(joint torques)。此算法完全 model-free,且针对 3D bipeds 学习任务所需的 amount of simulated experience,仅相当于现实时间的1-2周。

1 引言

强化学习中 typical problem formulation 是最大化策略的期望总奖励。一个主要的困难来源于行动间的长时间延迟及其对奖励的积极或消极影响;这个问题在强化学习文献(Minsky, 1961_AI; Sutton & Barto, 1998_RL)中被称为信用分配问题(credit assignment problem),而在行为文献(Hull, 1943_Principles_Behavior)中被称为远程奖励问题(distal reward problem)。价值函数提供了一个优雅的解决方案来应对信用分配问题——即在延迟奖励到达之前估计某个动作的好坏。强化学习算法以多种不同的方式利用价值函数;本文考虑的算法是优化 parameterized policy 并使用 value functions 来帮助估计如何改进策略。

当使用参数化的stochastic策略时,可以获得期望总returns梯度的unbiased估计(Williams, 1992_Gradient-Following_Algorithms; Sutton et al., 1999_Policy_Gradient; Baxter & Bartlett, 2000_POMDPs);这些有噪梯度估计可用于随机梯度上升算法中。然而,梯度估计的方差会随着时间范围的增加而显著(unfavorably)增大,因为一个动作的效果会与过去和未来动作的效果混淆(confounded)。另一类策略梯度算法称为演员-评论家方法(actor-critic methods),它使用价值函数而非经验回报,从而获得一个方差更低的估计器,但代价是引入了偏差(Konda & Tsitsiklis, 2003_Actor-Critic; Hafner & Riedmiller, 2011_Feedback_Control)。尽管高方差需要更多的样本,但偏差的危害更大——即使有无限数量的样本,偏差也可能导致算法无法收敛,或者收敛到一个甚至不是局部最优的较差解。

本文提出了一类策略梯度估计器,它们在保持可接受程度bias的同时显著降低了variance。本文将这种估计方案称为广义优势估计(Generalized Advantage Estimation, GAE),其参数为 γ ∈ [ 0 , 1 ] \gamma \in [0,1] γ[0,1] λ ∈ [ 0 , 1 ] \lambda \in [0,1] λ[0,1]。在 online actor-critic methods 背景下,已有相关方法被提出(Kimura & Kobayashi, 1998_Analysis_of_Actor_Critic; Wawrzyński, 2009_Sequential_Actor_Critics)。本文提供了更全面的分析,该分析适用于在线(online)和批量(batch)设置,并讨论了将本文的方法解释为奖励构造(Ng et al., 1999_Reward_Shaping)的一个实例,其中近似价值函数用于构造奖励。

本文展示了在多个极具挑战性的3D移动任务上的实验结果,表明本文的方法能够使用高维、通用的神经网络函数逼近器来学习复杂的步态,策略和价值函数的神经网络分别拥有超过 1 0 4 10^4 104个参数。这些policies可对具有多达33个状态维度和10个执行器的模拟3D机器人进行扭矩级控制。

本文的贡献总结如下:

  1. 本文针对策略梯度提出了一种有效的方差缩减方案——广义优势估计(GAE),并为其提供了理论依据与直观解释。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值