Online RL + IL :Policy Improvement via Imitation of Multiple Oracles

NIPS 2020
paper
code
如何利用多个次优专家策略来引导智能体在线学习,后续有多个文章研究该设定下的RL。

Intro

论文探讨了在强化学习(RL)中,如何通过模仿多个次优策略(称为oracle)来提升策略性能的问题。模仿学习(Imitation Learning, IL)通过在训练期间使用oracle策略作为引导,减少了这种成本。然而实际情况下,学习者可以访问到多个次优的oracle,这些oracle在某些状态下可能会提供相互矛盾的指导。现有的模仿学习文献对这种情况的处理相对有限。
论文的主要贡献包括:

  1. 提出了一个理论框架,用于从多个oracle中学习,特别是通过定义一个基于多个oracle策略价值函数最大值的基准线(max-aggregated baseline),来解决多个oracle之间冲突的建议。
  2. 提出了一个新颖的模仿学习算法MAMBA(Max-aggregation of Multiple Baselines),它可以通过在线学习的方式,学习与max-aggregated baseline竞争的策略。MAMBA是一个基于广义优势估计(Generalized Advantage Estimation, GAE)风格的梯度估计器的一阶算法。
  3. 提供了MAMBA的遗憾(regret)性能保证,并在实验中评估了MAMBA与标准策略梯度和AggreVaTe(D)算法的性能,展示了MAMBA利用单个和多个弱oracle进行演示的能力,并显著加快了策略优化的速度。 论文还讨论了如何选择在给定状态下切换不同oracle的点,以及是否可以学习一种可靠的规则来进行切换。

Method

文章设定智能体能够访问一组Oracle策略 Π e = { π k } k ∈ [ K ] \Pi^{\mathsf{e}}=\{\pi^{k}\}_{k\in[K]} Πe={ πk}k[K]。设 V k : = V π k V^k:=V^{\pi^k} Vk:=Vπk表示策略对应的状态价值函数。为了防止多种Oracle给出矛盾的建议导致智能体在线优化,文章提出max-aggregated baseline
f max ⁡ ( s ) : = max ⁡ k ∈ [ K ] V k ( s ) f^{\max}(s):=\max_{k\in[K]}V^k(s) fmax(s):=k[K]maxVk(s)
该值将作为一个目标,让智能体学习策略使得状态值函数大于该baseline。而此时需要完全了解MDP过程以及oracle准确的价值估计函数,这在IL中无法满足。因此,本文提出在线RL去逼近。
A ^ \hat{A} A^表示 A f ^ m a x A^{\widehat{f}^{\mathrm{max}}} Af max。采用基于优势函数 A ^ \hat{A} A^的策略梯度方法优化
∇ ℓ ^ n ( π n ) = − T E s ∼ d π n E a ∼ π ∣ s [ ∇ log ⁡ π ( a ∣ s ) A ^ ( s , a ) ] ∣ π = π n \nabla\widehat{\ell}_n(\pi_n)=-T\mathbb{E}_{s\sim d^{\pi n}}\mathbb{E}_{a\sim\pi|s}\left[\nabla\log\pi(a|s)\widehat{A}(s,a)\right]|_{\pi=\pi_n} n(πn)=TEsdπn

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值