强化学习(十一) Prioritized Replay DQN

最新推荐文章于 2024-03-15 20:04:01 发布

文宇肃然

最新推荐文章于 2024-03-15 20:04:01 发布

阅读量1.7k

点赞数

CC 4.0 BY-SA版权

分类专栏：手把手教你ML机器学习算法源码全解析

本文链接：https://blog.youkuaiyun.com/wenyusuran/article/details/98035338

手把手教你ML机器学习算法源码全解析专栏收录该内容

233 篇文章 ¥49.90 ¥99.00

订阅专栏

本文介绍了Prioritized Replay DQN算法，它基于DDQN，通过优先级采样解决传统DQN中样本利用率低的问题。文章详细阐述了算法的建模，包括根据TD误差设置样本优先级，使用SumTree存储并采样经验，以及优化后的损失函数。通过这种方式，算法提高了收敛速度，减少了无效迭代。

　　在强化学习（十）Double DQN (DDQN)中，我们讲到了DDQN使用两个Q网络，用当前Q网络计算最大Q值对应的动作，用目标Q网络计算这个最大动作对应的目标Q值，进而消除贪婪法带来的偏差。今天我们在DDQN的基础上，对经验回放部分的逻辑做优化。对应的算法是Prioritized Replay DQN。

　　　　本章内容主要参考了ICML 2016的deep RL tutorial和Prioritized Replay DQN的论文<Prioritized Experience Replay>(ICLR 2016)。