NIPS 2020
paper
code
如何利用多个次优专家策略来引导智能体在线学习,后续有多个文章研究该设定下的RL。
Intro
论文探讨了在强化学习(RL)中,如何通过模仿多个次优策略(称为oracle)来提升策略性能的问题。模仿学习(Imitation Learning, IL)通过在训练期间使用oracle策略作为引导,减少了这种成本。然而实际情况下,学习者可以访问到多个次优的oracle,这些oracle在某些状态下可能会提供相互矛盾的指导。现有的模仿学习文献对这种情况的处理相对有限。
论文的主要贡献包括:
- 提出了一个理论框架,用于从多个oracle中学习,特别是通过定义一个基于多个oracle策略价值函数最大值的基准线(max-aggregated baseline),来解决多个oracle之间冲突的建议。
- 提出了一个新颖的模仿学习算法MAMBA(Max-aggregation of Multiple Baselines),它可以通过在线学习的方式,学习与max-aggregated baseline竞争的策略。MAMBA是一个基于广义优势估计(Generalized Advantage Estimation, GAE)风格的梯度估计器的一阶算法。
- 提供了MAMBA的遗憾(regret)性能保证,并在实验中评估了MAMBA与标准策略梯度和AggreVaTe(D)算法的性能,展示了MAMBA利用单个和多个弱oracle进行演示的能力,并显著加快了策略优化的速度。 论文还讨论了如何选择在给定状态下切换不同oracle的点,以及是否可以学习一种可靠的规则来进行切换。
Method
文章设定智能体能够访问一组Oracle策略 Π e = { π k } k ∈ [ K ] \Pi^{\mathsf{e}}=\{\pi^{k}\}_{k\in[K]} Πe={
πk}k∈[K]。设 V k : = V π k V^k:=V^{\pi^k} Vk:=Vπk表示策略对应的状态价值函数。为了防止多种Oracle给出矛盾的建议导致智能体在线优化,文章提出max-aggregated baseline
f max ( s ) : = max k ∈ [ K ] V k ( s ) f^{\max}(s):=\max_{k\in[K]}V^k(s) fmax(s):=k∈[K]maxVk(s)
该值将作为一个目标,让智能体学习策略使得状态值函数大于该baseline。而此时需要完全了解MDP过程以及oracle准确的价值估计函数,这在IL中无法满足。因此,本文提出在线RL去逼近。
若 A ^ \hat{A} A^表示 A f ^ m a x A^{\widehat{f}^{\mathrm{max}}} Af
max。采用基于优势函数 A ^ \hat{A} A^的策略梯度方法优化
∇ ℓ ^ n ( π n ) = − T E s ∼ d π n E a ∼ π ∣ s [ ∇ log π ( a ∣ s ) A ^ ( s , a ) ] ∣ π = π n \nabla\widehat{\ell}_n(\pi_n)=-T\mathbb{E}_{s\sim d^{\pi n}}\mathbb{E}_{a\sim\pi|s}\left[\nabla\log\pi(a|s)\widehat{A}(s,a)\right]|_{\pi=\pi_n} ∇ℓ
n(πn)=−TEs∼dπn

最低0.47元/天 解锁文章

348

被折叠的 条评论
为什么被折叠?



