Offline RL : Context-Former: Stitching via Latent Conditioned Sequence Modeling

最新推荐文章于 2025-12-02 20:45:02 发布

原创

最新推荐文章于 2025-12-02 20:45:02 发布 · 1.2k 阅读

31 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #人工智能 #机器学习 #transformer

paper

基于HIM的离线RL算法，解决基于序列模型的离线强化学习算法缺乏对序列拼接能力。

Intro

文章提出了ContextFormer，旨在解决决策变换器（Decision Transformer, DT）在轨迹拼接（stitching）能力上的不足。轨迹拼接是离线RL中一个重要的能力，它允许算法通过组合次优的轨迹片段来获得更优的策略。ContextFormer通过集成基于上下文信息的模仿学习（Imitation Learning, IL）和序列建模，模仿有限数量专家轨迹的表示，来实现次优轨迹片段的拼接。实验结果表明，ContextFormer在多模仿学习设置下具有竞争力，并且在与其他DT变体的比较中表现出色。

两个定义

在这里插入图片描述
上述两个定义分别给出基于隐变量的条件序列模型建模方式，以及使用专家序列，通过度量经过embedding后的变量距离，使得待优化策略应满足靠近专家策略，远离次优轨迹策略。对于定义二有如下形式化的目标来优化上下文隐变量表征
$\mathcal{J}_{\mathbf{z}^{*}}=\operatorname*{min}_{\mathbf{z}^{*},I_{\phi}}\mathbb{E}_{\tau^{*}\sim\pi^{*}(\tau)}[\|\mathbf{z}^{*}-I_{\phi}(\tau^{*})\|]\\-\mathbb{E}_{\hat{\tau}\sim\hat{\pi}}[\|\mathbf{z}^{*}-I_{\phi}(\hat{\tau})\|],$