Online RL + IL : Blending Imitation and Reinforcement Learning for Robust Policy Improvement

ICLR 2024 Spotlight
paper
max-aggregation 系列的第三篇文章,同样研究从多个次优策略中选择,从而引导智能体在线高效学习

Intro

MAMBA 和 MAPS 在面对质量较差的专家集合或学习者已经超越所有专家时,仍然会尝试从较差的专家中进行模仿学习,这可能会阻碍策略改进。本文提出一种全新框架RPI用于解决该问题。

Method

首先文章对原始设定下的专家策略结合进行扩展,将当前学习者策略纳入其中。
在这里插入图片描述
这样全新的max-aggregation 中的优势函数以及策略定义为
在这里插入图片描述

在这里插入图片描述
这种策略扩展使得 π ∘ ( a ∣ s ) \pi^{\circ}\left(a\mid s\right) π(as)始终保证为最优策略。同时,为了实现在rollout过程中的探索能力以及学习者策略自我提升,算法使用Dirac distribution采样.
在这里插入图片描述
接下来便是采用在线RL算法是对价值函数进行逼近。文章所提出的算法由两部分构成:

  1. Robust Active Policy Selection (RAPS):基于价值函数选择策略rollout。
  2. Robust Policy Gradient (RPG):在 actor-critic 框架内,基于新提出的优势函数(类GAE)执行策略梯度更新

RAPS

RAPS 采用集成模型估计策略的价值函数,结合 UCB (专家策略)和 LCB (学习者策略)的方法调整函数估计,选取最优估计下的策略从而实现主动策略选择。
V ^ k ‾ ( s ) = V ^ μ k ( s ) + σ k ( s ) , V ^ k ‾ ( s ) = V ^ μ k ( s ) − σ k ( s ) k ⋆ = arg ⁡ max ⁡ k ∈ [ ∣ Π ε ∣ ] { V ^ 1 ‾ ( s ) , V ^ 2 ‾ ( s ) , . . . , V ^ K ‾ ( s ) , V ^ K + 1 ‾ ( s ) } ( 10 ) \begin{align}\overline{\hat{V}^k}(s)&=\hat{V}_\mu^k(s)+\sigma_k(s),\underline{\hat{V}^k}(s)=\hat{V}_\mu^k(s)-\sigma_k(s)\\k_{\star}&=\arg\max_{k\in[|\Pi^{\varepsilon}|]}\left\{\overline{\hat{V}^{1}}\left(s\right),\overline{\hat{V}^{2}}\left(s\right),...,\overline{\hat{V}^{K}}\left(s\right),\underline{\hat{V}^{K+1}}\left(s\right)\right\} (10)\end{align} V^k(s)k=V^μk(s)+σk(s),V^k(s)=V^μk(s)σk(s)=argk[Π

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值