Offline RL:OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning-优快云博客

本文链接：https://blog.youkuaiyun.com/wdnmdwsmsa/article/details/137339880

本文介绍了一种名为OPAL的新算法，通过三个阶段处理离线数据中的行为扩展。首先，使用无奖励数据学习基础策略；接着，结合带奖励数据优化下游任务策略；最后，整合策略预测动作。算法通过隐空间一致性保证避免过拟合，适用于复杂行为建模。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

ICLR 2021
paper

Intro

本文的出发点是高效捕捉离线数据中种类繁多的行为。一种方法便是利用隐空间 $z$ 进行状态表征然后在其基础上扩展出新的行为 $\pi(a|s,z)$ 用于下游任务。

Method

在这里插入图片描述

OPAL算法分为三各阶段
1.第一阶段利用无奖励标签数据，通过最大化对数似然函数学习Primitive policy $\pi_\theta(a|s,z)$
$\begin{aligned}\min_{\theta,\phi,\omega}J(\theta,\phi,\omega)&=\hat{\mathbb{E}}_{\tau\sim\mathcal{D},z\sim q_\phi(z|\tau)}\left[-\sum_{t=0}^{c-1}\log\pi_\theta(a_t|s_t,z)\right]\\\text{s.t. }&\hat{\mathbb{E}}_{\tau\sim\mathcal{D}}[\mathrm{D}_\mathrm{KL}(q_\phi(z|\tau)||\rho_\omega(z|s_0))]\leq\epsilon_\mathrm{KL}\end{aligned}$
KL散度约束条件保证了轨迹状态和初始状态在隐空间一致性，避免过拟合。而在实践中，则是将约束条件作为惩罚项加入到原问题，将其转化为无约束问题。
2. 第二阶段则是学习应用于下游任务的 $\pi_\psi(z|s)$ 。这里采用 $N$ 个带奖励的轨迹数据集 $\mathcal{D}^{r}=\{\tau_{i}:=(s_{t}^i,a_{t}^i,r_{t}^i)_{t=0}^{c-1}\}_{i=1}^{N}$ ，利用第一阶段的 $q_\phi(z|\tau)$ ，对轨迹数据重构得到 $\mathcal{D}_{\mathrm{hi}}^{r}=\{(s_{0}^{i},z_{i},\sum_{t=0}^{c-1}\gamma^{t}r_{t}^{i},s_{c}^{i})\}_{i=1}^{N}$ ，基于该数据集采用任意offline RL算法(CQL)学习 $\pi_\psi(z|s)$ 。同时，基于数据集 $\mathcal{D}_{\mathrm{lo}}^{r}=\{((s_{t}^{i},a_{t}^{i})_{t=0}^{c-1},z_{i})\}_{i=1}^{N}$ 最大化对数似然函数，进一步优化primitive policy
$\min_{\theta}\hat{\mathbb{E}}_{(\tau,z)\sim\mathcal{D}_{\text{lo}}^r}\left[-\sum_{t=0}^{c-1}\log\pi_\theta(a_t|s_t,z)\right]$
3.第三阶段，便是利用 $\pi_\psi(z|s)$ 与 $\pi_\theta(a|s,z)$ 预测动作