O2O:Sample Efficient Offline-to-Online Reinforcement Learning

原创

已于 2024-03-08 22:58:34 修改 · 812 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能

于 2024-03-08 22:55:23 首次发布

文章针对O2O存在的策略探索受限、分布偏移及在线微调样本效率低问题，提出OEMA算法。先使用离线数据训练乐观探索策略，又提出基于元学习的优化方法减少分布偏移。还对算法中的策略、元学习过程进行了详细阐述，并提出了元优化中梯度更新的疑问。

IEEE TKDE 2024
paper

Introduction

O2O存在策略探索受限以及分布偏移问题，进而导致在线微调阶段样本效率低。文章提出OEMA算法首先使用离线数据训练乐观的探索策略，然后提出基于元学习的优化方法，减少分布偏移并提高O2O的适应过程。

Method

在这里插入图片描述

optimistic exploration strategy

离线学习方法TD3+BC的行为策略 $\pi_e(s)$ 是由目标策略 $\pi_\phi(s)$ 加上一个正态分布中采样的噪声。文章指出，目标策略被优化靠近离线数据集的保守策略，为了提高目标策略的探索能力，本文提出基于价值不确定性度量的方法：
$\begin{aligned}\pi_{e}&=\arg\max_{\pi}\hat{Q}_{\mathrm{UB}}(s,\pi(s)),\\s.t.&\frac{1}{2}\|\pi_{\phi}(s)-\pi(s)\|\le\delta,\end{aligned}$
其中 $\hat{Q}_{\mathrm{UB}}(s,\pi(s))$ 为Q值的近似上界, 用来衡量认知不确定性。上述问题在保证策略约束的同时选择高不确信的动作。

不确信估计采用高斯分布。分布的均值为两个Q网络输出的均值，而方差表示如下：
$\begin{gathered} \sigma_{Q}(s,a) =\sqrt{\sum_{i=1,2}\frac12(Q_{\theta_{i}}(s,a)-\mu_{Q}(s,a))^{2}} \\ =\frac12\Big|Q_{\theta_1}(s,a)-Q_{\theta_2}(s,a)\Big|. \end{gathered}$