Search on the Replay Buffer: Bridging Planning and Reinforcement Learning论文简读

wxxw1

已于 2023-07-30 15:09:27 修改

阅读量191

点赞数

文章标签：机器学习人工智能算法

于 2023-07-30 15:03:05 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/wxxw1/article/details/132007180

版权

“Search on the Replay Buffer: Bridging Planning and Reinforcement Learning” 是一篇由Ofir Nachum, Yinlam Chow, Bo Dai, Lihong Li, and Chenjun Xiao等人在2019年提出的研究论文。这篇论文提出了一种新颖的强化学习方法，旨在将计划（planning）和强化学习（reinforcement learning）相结合，以更好地利用回放缓冲区中的经验数据，提高学习效率和样本利用率。

论文中的主要贡献和方法概述如下：

研究背景：传统的强化学习算法使用回放缓冲区（replay buffer）来存储之前的经验样本，以进行经验回放。然而，回放缓冲区中的样本通常被简单地随机采样，未能充分利用样本之间的关系和依赖性。为了更有效地利用回放缓冲区中的经验数据，该论文尝试将计划方法引入强化学习中。

框架介绍：论文提出了一个名为 “Search on the Replay Buffer”（SORB）的框架，通过搜索回放缓冲区中的经验样本，来选择具有高度相关性的样本进行经验回放。这种搜索过程实质上是一种计划过程，它根据当前状态和回放缓冲区中的经验样本，寻找与当前状态相匹配的最优样本序列。

计划与强化学习的结合：SORB框架使用了一种基于经验图搜索的方法，将计划与强化学习相结合。它在经验回放的过程中，利用样本之间的相似性和依赖关系，选择更有价值的样本序列，用于训练和更新强化学习模型。

实验证明：论文通过在多个标准强化学习任务上进行实验，证明了SORB框架的有效性。相比传统的经验回放方法，SORB可以显著提高学习效率和性能，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。