ICLR 2024 Spotlight
paper
max-aggregation 系列的第三篇文章,同样研究从多个次优策略中选择,从而引导智能体在线高效学习
Intro
MAMBA 和 MAPS 在面对质量较差的专家集合或学习者已经超越所有专家时,仍然会尝试从较差的专家中进行模仿学习,这可能会阻碍策略改进。本文提出一种全新框架RPI用于解决该问题。
Method
首先文章对原始设定下的专家策略结合进行扩展,将当前学习者策略纳入其中。

这样全新的max-aggregation 中的优势函数以及策略定义为


这种策略扩展使得 π ∘ ( a ∣ s ) \pi^{\circ}\left(a\mid s\right) π∘(a∣s)始终保证为最优策略。同时,为了实现在rollout过程中的探索能力以及学习者策略自我提升,算法使用Dirac distribution采样.

接下来便是采用在线RL算法是对价值函数进行逼近。文章所提出的算法由两部分构成:
- Robust Active Policy Selection (RAPS):基于价值函数选择策略rollout。
- Robust Policy Gradient (RPG):在 actor-critic 框架内,基于新提出的优势函数(类GAE)执行策略梯度更新
RAPS
RAPS 采用集成模型估计策略的价值函数,结合 UCB (专家策略)和 LCB (学习者策略)的方法调整函数估计,选取最优估计下的策略从而实现主动策略选择。
V ^ k ‾ ( s ) = V ^ μ k ( s ) + σ k ( s ) , V ^ k ‾ ( s ) = V ^ μ k ( s ) − σ k ( s ) k ⋆ = arg max k ∈ [ ∣ Π ε ∣ ] { V ^ 1 ‾ ( s ) , V ^ 2 ‾ ( s ) , . . . , V ^ K ‾ ( s ) , V ^ K + 1 ‾ ( s ) } ( 10 ) \begin{align}\overline{\hat{V}^k}(s)&=\hat{V}_\mu^k(s)+\sigma_k(s),\underline{\hat{V}^k}(s)=\hat{V}_\mu^k(s)-\sigma_k(s)\\k_{\star}&=\arg\max_{k\in[|\Pi^{\varepsilon}|]}\left\{\overline{\hat{V}^{1}}\left(s\right),\overline{\hat{V}^{2}}\left(s\right),...,\overline{\hat{V}^{K}}\left(s\right),\underline{\hat{V}^{K+1}}\left(s\right)\right\} (10)\end{align} V^k(s)k⋆=V^μk(s)+σk(s),V^k(s)=V^μk(s)−σk(s)=argk∈[∣Π

最低0.47元/天 解锁文章
1134

被折叠的 条评论
为什么被折叠?



