Offline : CLARE: Conservative Model-Based Reward Learning for Offline Inverse Reinforcement Learning

本文链接：https://blog.youkuaiyun.com/wdnmdwsmsa/article/details/139630497

ICLR 2023
paper
code

Intro

离线逆强化学习由于 $\textbf{协变量偏移}$ 问题容易导致所学的 $\textbf{奖励函数外推误差}$ 。这种误差可能使得学习到的奖励函数无法正确解释任务，并在新环境中误导智能体。本文利用专家数据和低质量的多样化数据，设计了一个算法CLARE，通过将“保守性”纳入学习奖励函数中并利用估计动态模型，有效地解决离线IRL。CLARE旨在解决奖励外推误差，利用高质量专家数据和低质量多样化数据增强状态-行为空间的覆盖。该算法在 $\textbf{保守奖励更新和安全策略改进之间进行迭代}$ ，奖励函数根据加权专家和多样化状态-行为更新，同时谨慎地惩罚模型rollout生成的行为。在MuJoCo连续控制任务上进行的广泛实验比较了CLARE与现有的离线IRL和离线IL算法。结果表明，CLARE在几乎所有数据集上都取得了显著的性能提升。

Method

Learning dynamics models

采用MOPO中的集成模型构造动力学模型，通过监督学习形式优化得到 $\{\widehat{T}_{i}(s^{\prime}|s,a)=\mathcal{N}(\mu_{i}(s,a),\Sigma_{i}(s,a))\}_{i=1}^{N}$

CLARE

算法在保守奖励更新和安全策略改进之间进行迭代

$L(r|\pi)\doteq\underbrace{Z_\beta\mathbb{E}_{s,a\thicksim\hat{\rho}^\pi}[r(s,a)]}_{\text{penalized on model rollouts}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^E}[r(s,a)]}_{\text{increased on expert data}}-\underbrace{\mathbb{E}_{s,a\thicksim\bar{\rho}^D}[\beta(s,a)r(s,a)]}_{\text{weighting expert and diverse data}}+\underbrace{Z_\beta\psi(r)}_{\text{regularizer}},\quad(2)$
其中权重 $Z_{\beta}\doteq1+\mathbb{E}_{s^{\prime},a^{\prime}\sim\tilde{\rho}^{D}}[\beta(s^{\prime},a^{\prime})]$ ，经验分布 $\tilde{\rho}^{D}(s,a)\doteq(|\mathcal{D}_{E}(s,a)|+|\mathcal{D}_{B}(s,a)|)/(D_{E}+D_{B})$ ， $\tilde{\rho}^{E}\doteq|\mathcal{D}_{E}(s,a)|/D_{E}$ 。而 $\hat{\rho}^{\pi}$ 表示在学习得到的动力学模型在执行策略 $\pi$ 得到的占用度量。
$\max_{\pi\in\mathrm{II}}L(\pi|r)\doteq Z_\beta\mathbb{E}_{s,a\sim\hat{\rho}^\pi}[r(s,a)]+\alpha\widehat{H}(\pi),$

文章回顾保守奖励函数优化问题，得到如下定义
在这里插入图片描述
$D_\psi$ 为广义距离统计函数。上述结果说明CLARE 基于模型 $\hat{T}$ 隐含优化一个策略，使得其占用度量保持在专家数据集 $D_E$ 和联合离线数据集 D 的经验分布的插值附近。CLARE 试图通过选择适当的权重参数 β(s, a) 来权衡模型的探索和离线数据的利用。接下来核心便是如何选择 $\beta(s,a)$ 。

CLARE基于不确定估计确定 $\beta$ 。不确定估计器为 $c(s,a)=\max_{i\in[N]}\|\Sigma_{i}(s,a)\|_{F},$ 。那每个(s,a)的 $\beta$ 表示为
$\beta(s,a)=\begin{cases}\frac{N''D}{N'D_E},&ifc(s,a)\leq u,\\-\frac{D}{D_E}\cdot\mathbf{1}[(s,a)\in\mathcal{D}_E],&ifc(s,a)>u,\\0,&otherwise,\end{cases}$
其中 $u$ 是一个超参数， $N'\doteq\sum_{(s,a)\in\mathcal{D}}\mathbf{1}[c(s,a)\leq u]\text{ and }N''\doteq\sum_{(s,a)\in\mathcal{D}_{E}}\mathbf{1}[c(s,a)>u]$

Reward and policy regularizers

在实际操作中，对保守奖励优化问题中的 $\psi(r)=r^{2}$ 。奖励函数优化函数如下
$\begin{aligned}L(r_{\phi})&\doteq Z_{\beta}\mathbb{E}_{\mathcal{D}_{\mathrm{replay}}}\left[r_{\phi}(s,a)\right]+Z_{\beta}\mathbb{E}_{s,a\sim\mathcal{D}\cup\mathcal{D}_{\mathrm{replay}}}\left[r_{\phi}(s,a)^{2}\right]\\&-\mathbb{E}_{s,a\sim\mathcal{D}_{E}}\big[r_{\phi}(s,a)\big]-\mathbb{E}_{s,a\sim\mathcal{D}}\big[\beta(s,a)r_{\phi}(s,a)\big].\end{aligned}$

对策略优化采用SAC，而在这为了加速策略改进，从离线数据中采样batch的数据，将KL正则化加入其中
$D_{\mathrm{KL}}(\pi^b\|\pi)\doteq\mathbb{E}_{s\in\mathcal{D}^{\prime}}\Big[\mathbb{E}_{a\sim\pi^b(\cdot|s)}\Big[\log\pi^b(a|s)\Big]-\mathbb{E}_{a\sim\pi^b(\cdot|s)}\Big[\log\pi(a|s)\Big]\Big],$
其中 $\pi^b(a|s)=\frac{\sum_{(s^{\prime},a^{\prime})\in\mathcal{D}^{\prime}}\mathbf{1}[s^{\prime}=s,a^{\prime}=a]}{\sum_{(s^{\prime},a^{\prime})\in\mathcal{D}^{\prime}}\mathbf{1}[s^{\prime}=s]}\mathrm{~if~}(s,a)\in\mathcal{D}^{\prime}\text{, and }\pi^b(a|s)=0 ~~otherwise$ 。这一项可以直接用 $-\mathbb{E}_{s,a\sim\mathcal{D}^{\prime}}[\log\pi(a|s)]$ 代替实现。