Offline RL ：Goal-Conditioned Predictive Coding for Offline Reinforcement Learning

收到求救信号

于 2024-05-20 19:39:47 发布

阅读量534

点赞数 5

CC 4.0 BY-SA版权

分类专栏：强化学习离线强化学习 Transformer 文章标签：机器学习人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wdnmdwsmsa/article/details/139068102

强化学习同时被 3 个专栏收录

96 篇文章

订阅专栏

离线强化学习

39 篇文章

订阅专栏

9 篇文章

订阅专栏

NIPS 2023
paper
code

Intro

基于序列模型表征的两阶段离线强化学习算法。该两阶段框架，首先使用序列模型来编码轨迹级别的表示，然后学习一个以这些编码表示作为输入的条件性策略。

Method

Trajectory Representation Learning

采用encoder-decoder结构实现状态序列重构以及序列特征表示。
$\hat{\tau},B=f_\phi(\text{Masked}(\tau),g)$
在这里插入图片描述
其中对状态序列添加掩码（masked）来提高encoder的表征能力, 而掩码的方式是对History state随机掩码，Future state完全掩码。Goal可以是序列轨迹状态的随机采样 ${s_i\}_{i=t+1}^{H}$ ，也可以是平均轨迹累计奖励( $\mathrm{i.e.}g=\frac{1}{H-t+1}\sum_{i=t}^{H}r_{i},$ )。

Policy Learning

第二阶段便是利用encoder得到的隐变量，联合状态以及goal, 通过监督学习实现策略学习

在这里插入图片描述
轨迹表示学习和策略学习解耦，独立地优化每个阶段，提高学习的灵活性和效率。Policy采用目标条件预测编码（Goal-Conditioned Predictive Coding, GCPC）——通过学习Goal为条件的潜在表示来编码未来轨迹，对于决策制定至关重要。下面图片展示了采取GCPC有效提高算法性能。
在这里插入图片描述

results

在这里插入图片描述

Limitations

1.GCPC 通过对离线收集的轨迹执行最大似然估计来模拟未来，这可能会预测过于乐观的未来行为并导致随机环境中的次优动作。未来的工作包括通过考虑 GCPC 生成的多个对环境随机性具有鲁棒性的策略。
2. 当涉及高维状态时，GCPC可能不足以保持长期未来预测的高精度

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。