Online RL + IL :Policy Improvement via Imitation of Multiple Oracles

原创

已于 2024-05-15 10:57:29 修改 · 505 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习 #人工智能 #算法

于 2024-05-15 10:31:21 首次发布

NIPS 2020
paper
code
如何利用多个次优专家策略来引导智能体在线学习，后续有多个文章研究该设定下的RL。

Intro

论文探讨了在强化学习（RL）中，如何通过模仿多个次优策略（称为oracle）来提升策略性能的问题。模仿学习（Imitation Learning, IL）通过在训练期间使用oracle策略作为引导，减少了这种成本。然而实际情况下，学习者可以访问到多个次优的oracle，这些oracle在某些状态下可能会提供相互矛盾的指导。现有的模仿学习文献对这种情况的处理相对有限。
论文的主要贡献包括：

提出了一个理论框架，用于从多个oracle中学习，特别是通过定义一个基于多个oracle策略价值函数最大值的基准线（max-aggregated baseline），来解决多个oracle之间冲突的建议。
提出了一个新颖的模仿学习算法MAMBA（Max-aggregation of Multiple Baselines），它可以通过在线学习的方式，学习与max-aggregated baseline竞争的策略。MAMBA是一个基于广义优势估计（Generalized Advantage Estimation, GAE）风格的梯度估计器的一阶算法。
提供了MAMBA的遗憾（regret）性能保证，并在实验中评估了MAMBA与标准策略梯度和AggreVaTe(D)算法的性能，展示了MAMBA利用单个和多个弱oracle进行演示的能力，并显著加快了策略优化的速度。论文还讨论了如何选择在给定状态下切换不同oracle的点，以及是否可以学习一种可靠的规则来进行切换。

Method

文章设定智能体能够访问一组Oracle策略 $\Pi^{\mathsf{e}}=\{\pi^{k}\}_{k\in[K]}$ 。设 $V^k:=V^{\pi^k}$ 表示策略对应的状态价值函数。为了防止多种Oracle给出矛盾的建议导致智能体在线优化，文章提出max-aggregated baseline
$f^{\max}(s):=\max_{k\in[K]}V^k(s)$
该值将作为一个目标，让智能体学习策略使得状态值函数大于该baseline。而此时需要完全了解MDP过程以及oracle准确的价值估计函数，这在IL中无法满足。因此，本文提出在线RL去逼近。
若 $\hat{A}$ 表示 $A^{\widehat{f}^{\mathrm{max}}}$ 。采用基于优势函数 $\hat{A}$ 的策略梯度方法优化
$\nabla\widehat{\ell}_n(\pi_n)=-T\mathbb{E}_{s\sim d^{\pi n}}\mathbb{E}_{a\sim\pi|s}\left[\nabla\log\pi(a|s)\widehat{A}(s,a)\right]|_{\pi=\pi_n}$