Intro
基于序列模型表征的两阶段离线强化学习算法。该两阶段框架,首先使用序列模型来编码轨迹级别的表示,然后学习一个以这些编码表示作为输入的条件性策略。
Method
Trajectory Representation Learning
采用encoder-decoder结构实现状态序列重构以及序列特征表示。
τ
^
,
B
=
f
ϕ
(
Masked
(
τ
)
,
g
)
\hat{\tau},B=f_\phi(\text{Masked}(\tau),g)
τ^,B=fϕ(Masked(τ),g)

其中对状态序列添加掩码(masked)来提高encoder的表征能力, 而掩码的方式是对History state随机掩码,Future state完全掩码。Goal可以是序列轨迹状态的随机采样
{
s
i
}
i
=
t
+
1
H
\{s_i\}_{i=t+1}^{H}
{si}i=t+1H,也可以是平均轨迹累计奖励(
i
.
e
.
g
=
1
H
−
t
+
1
∑
i
=
t
H
r
i
,
\mathrm{i.e.}g=\frac{1}{H-t+1}\sum_{i=t}^{H}r_{i},
i.e.g=H−t+11∑i=tHri,)。
Policy Learning
第二阶段便是利用encoder得到的隐变量,联合状态以及goal, 通过监督学习实现策略学习

轨迹表示学习和策略学习解耦,独立地优化每个阶段,提高学习的灵活性和效率。Policy采用目标条件预测编码(Goal-Conditioned Predictive Coding, GCPC)——通过学习Goal为条件的潜在表示来编码未来轨迹,对于决策制定至关重要。下面图片展示了采取GCPC有效提高算法性能。


results


Limitations
1.GCPC 通过对离线收集的轨迹执行最大似然估计来模拟未来,这可能会预测过于乐观的未来行为并导致随机环境中的次优动作。未来的工作包括通过考虑 GCPC 生成的多个对环境随机性具有鲁棒性的策略。
2. 当涉及高维状态时,GCPC可能不足以保持长期未来预测的高精度

917

被折叠的 条评论
为什么被折叠?



