ICLR 2021
paper
Intro
本文的出发点是高效捕捉离线数据中种类繁多的行为。一种方法便是利用隐空间 z z z进行状态表征然后在其基础上扩展出新的行为 π ( a ∣ s , z ) \pi(a|s,z) π(a∣s,z)用于下游任务。
Method

OPAL算法分为三各阶段
1.第一阶段利用无奖励标签数据,通过最大化对数似然函数学习Primitive policy π θ ( a ∣ s , z ) \pi_\theta(a|s,z) πθ(a∣s,z)
min θ , ϕ , ω J ( θ , ϕ , ω ) = E ^ τ ∼ D , z ∼ q ϕ ( z ∣ τ ) [ − ∑ t = 0 c − 1 log π θ ( a t ∣ s t , z ) ] s.t. E ^ τ ∼ D [ D K L ( q ϕ ( z ∣ τ ) ∣ ∣ ρ ω ( z ∣ s 0 ) ) ] ≤ ϵ K L \begin{aligned}\min_{\theta,\phi,\omega}J(\theta,\phi,\omega)&=\hat{\mathbb{E}}_{\tau\sim\mathcal{D},z\sim q_\phi(z|\tau)}\left[-\sum_{t=0}^{c-1}\log\pi_\theta(a_t|s_t,z)\right]\\\text{s.t. }&\hat{\mathbb{E}}_{\tau\sim\mathcal{D}}[\mathrm{D}_\mathrm{KL}(q_\phi(z|\tau)||\rho_\omega(z|s_0))]\leq\epsilon_\mathrm{KL}\end{aligned} θ,ϕ,ωminJ(θ,ϕ,ω)s.t. =E^τ∼D,z∼qϕ(z∣τ)[−t=0∑c−1logπθ

本文介绍了一种名为OPAL的新算法,通过三个阶段处理离线数据中的行为扩展。首先,使用无奖励数据学习基础策略;接着,结合带奖励数据优化下游任务策略;最后,整合策略预测动作。算法通过隐空间一致性保证避免过拟合,适用于复杂行为建模。
最低0.47元/天 解锁文章
1395

被折叠的 条评论
为什么被折叠?



