O2O : OLLIE: Imitation Learning from Offline Pretraining to Online Finetuning

最新推荐文章于 2025-11-25 11:31:36 发布

原创

最新推荐文章于 2025-11-25 11:31:36 发布 · 1k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#算法 #机器学习 #人工智能

ICML 2024
paper
code
解决离线到在线过程中，判别器对齐问题。

Intro

传统采用离线模仿学习结合基于GAIL的在线模仿学习，容易因为在线阶段初始化的判别器表现具有随机性，与离线获得的策略不一致。因此，本文提出的OLLIE，便是利用混合质量的数据，实现判别器与策略之间的对齐，从何防止O2O的performance drop。

Method

GAIL

GAIL是一种传统在线模仿学习算法，其目标是对抗的学习一个判别器，用于区分专家数据与在线数据
$\min_\pi\max_D\mathbb{E}_{\rho^\pi}[\log D(s,a)]+\mathbb{E}_{\bar{\rho}^e}[\log(1-D(s,a))].(2)$ .
最优判别器输出表示为 $D^*(s,a)=\frac{\rho^\pi(s,a)}{\rho^\pi(s,a)+\tilde{\rho}^e(s,a)}.$

Offline IL

假设专家数据 $D_e$ 以及混合数据 $\mathcal{D}_{o}\doteq\mathcal{D}_{e}\cup\mathcal{D}_{s}$ 的状态动作分布分别为 $\tilde{\rho}^{e}>0$ 以及 $\tilde{\rho}^o>0$ 。离线学习的目标可以看作状态动作分布匹配问题，通过一个逆KL散度表达
$\operatorname*{min}_{\pi}D_{\mathrm{KL}}(\rho^{\pi}\|\tilde{\rho}^{e})=\mathbb{E}_{(s,a)\sim\rho^{\pi}}\left[\log{\frac{\rho^{\pi}(s,a)}{\tilde{\rho}^{e}(s,a)}}\right]$
为了让混合数据参与上式的处理过程，在对数项的分子分母同时添加 $\tilde{\rho}^o$ ，原问题改造为
$\max_\pi\mathbb{E}_{(s,a)\sim\rho^\pi}\big[\tilde{R}(s,a)\big]-D_{\mathrm{KL}}(\rho^\pi\|\tilde{\rho}^o)~~~~（5）$
其中 $\tilde{R}(s,a)\doteq\log\frac{\bar{\rho}^e(s,a)}{\bar{\rho}^o(s,a)}$ 。对于低维表格环境可以通过统计计算状态动作分布，而对于高维环境则可以通过训练一个判别器进行区分
$\max_d\mathbb{E}_{\tilde{\rho}^e}\big[\log d(s,a)\big]+\mathbb{E}_{\tilde{\rho}^o}\big[\log(1-d(s,a))\big]\quad(6)$
进而得到 $\tilde{R}(s,a)=\log\frac{\tilde{\rho}^{e}(s,a)}{\tilde{\rho}^{o}(s,a)}=\log\frac{d^{*}(s,a)}{1-d^{*}(s,a)}.\quad(7)$