Harnessing Discrete Representations for Continual Reinforcement Learning

UnknownBody

于 2024-07-18 15:08:43 发布

阅读量393

点赞数 4

CC 4.0 BY-SA版权

分类专栏： LLM Daily LLM RL 文章标签：人工智能算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c_cpp_csharp/article/details/140523374

LLM Daily 同时被 2 个专栏收录

1392 篇文章 ¥99.90 ¥299.90

订阅专栏

超级会员免费看

42 篇文章

订阅专栏

本文是LLM系列文章，针对《Harnessing Discrete Representations for Continual Reinforcement Learning》的翻译。

利用离散表示进行连续强化学习

摘要
1 引言
2 实验设置
3 离散表示的世界模型学习
4 具有离散表示的无模型RL
5 结论和未来工作

摘要

强化学习（RL）代理只使用来自环境的观察来做出决策，因此严重依赖于这些观察的表示。尽管最近的一些突破使用了基于向量的观测分类表示，通常称为离散表示，但很少有工作明确评估这种选择的重要性。在这项工作中，我们对离散表示在世界模型学习、无模型强化学习以及最终的连续强化学习问题中的优势进行了实证研究，我们发现离散表示的影响最大。我们发现，与传统的连续表示相比，在离散表示上学习的世界模型能够以较小的容量准确地模拟更大比例的状态空间，并且用离散表示训练的代理可以用较少的数据学习更好的策略。在持续强化学习的背景下，这些好处转化为更快的适应代理。此外，我们的分析表明，导致这些改进的是二元性和稀疏性，而不是离散表示的“离散性”。

1 引言

2 实验设置

3 离散表示的世界模型学习

4 具有离散表示的无模型RL

5 结论和未来工作

在这项工作中，我们在两个模块中探索了从离散和稀疏表示中学习的效果，这两个模块包括许多基于模型的RL算法：模型学习和无模型策略学习。在学习世界模型时，离散的多独热表示能够用更少的资源准确地建模更多的世界。在无模型的RL设置（策略学习）中，具有多独热或稀疏表示的代理学会了导航到目标并更快地适应

了解本专栏

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

UnknownBody 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。