Offline RL:OPAL: Offline Primitive Discovery for Accelerating Offline Reinforcement Learning

本文介绍了一种名为OPAL的新算法,通过三个阶段处理离线数据中的行为扩展。首先,使用无奖励数据学习基础策略;接着,结合带奖励数据优化下游任务策略;最后,整合策略预测动作。算法通过隐空间一致性保证避免过拟合,适用于复杂行为建模。

ICLR 2021
paper

Intro

本文的出发点是高效捕捉离线数据中种类繁多的行为。一种方法便是利用隐空间 z z z进行状态表征然后在其基础上扩展出新的行为 π ( a ∣ s , z ) \pi(a|s,z) π(as,z)用于下游任务。

Method

在这里插入图片描述

OPAL算法分为三各阶段
1.第一阶段利用无奖励标签数据,通过最大化对数似然函数学习Primitive policy π θ ( a ∣ s , z ) \pi_\theta(a|s,z) πθ(as,z)
min ⁡ θ , ϕ , ω J ( θ , ϕ , ω ) = E ^ τ ∼ D , z ∼ q ϕ ( z ∣ τ ) [ − ∑ t = 0 c − 1 log ⁡ π θ ( a t ∣ s t , z ) ] s.t.  E ^ τ ∼ D [ D K L ( q ϕ ( z ∣ τ ) ∣ ∣ ρ ω ( z ∣ s 0 ) ) ] ≤ ϵ K L \begin{aligned}\min_{\theta,\phi,\omega}J(\theta,\phi,\omega)&=\hat{\mathbb{E}}_{\tau\sim\mathcal{D},z\sim q_\phi(z|\tau)}\left[-\sum_{t=0}^{c-1}\log\pi_\theta(a_t|s_t,z)\right]\\\text{s.t. }&\hat{\mathbb{E}}_{\tau\sim\mathcal{D}}[\mathrm{D}_\mathrm{KL}(q_\phi(z|\tau)||\rho_\omega(z|s_0))]\leq\epsilon_\mathrm{KL}\end{aligned} θ,ϕ,ωminJ(θ,ϕ,ω)s.t. =E^τD,zqϕ(zτ)[t=0c1logπθ

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值