强化学习—— 经验回放（Experience Replay）

最新推荐文章于 2025-06-25 15:01:57 发布

CyrusMay

最新推荐文章于 2025-06-25 15:01:57 发布

阅读量1.2w

点赞数 15

CC 4.0 BY-SA版权

分类专栏：强化学习文章标签： python 算法强化学习人工智能 TD 算法

本文链接：https://blog.youkuaiyun.com/Cyrus_May/article/details/124075208

16 篇文章

订阅专栏

本文介绍了DQN算法及其存在的经验浪费和相关更新问题，提出了经验回放作为解决方案，通过存储和随机抽样transition来打破序列相关性。进一步探讨了改进的经验回放——优先级重放，利用TD误差进行非均匀抽样，并通过学习率变换平衡训练。这种方法提高了样本效率，尤其适用于深度强化学习中的高效训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

1、DQN的缺点

一个 transition为： $s_t,a_t,r_t,s_{t+1})$
经验（所有的transition）为： ${(s1,a1,r1,s2,),...(s_t,a_t,r_t,s_{t+1}),...,s_T,a_T,r_T,s_{T+1}\}$

通常t时刻的状态和t+1时刻的状态是强相关的。
$r(s_t,s_{t+1})$

从buffer中随机抽样： $s_i,a_i,r_i,s_{i+1})$
计算TD Error： $\delta_i$
随机梯度为： $g_i=\frac{\partial \frac{\delta_i^2}{2}}{\partial W}= \delta_i \cdot \frac{\partial Q(s_i,a_i;W)}{\partial W}$
梯度更新： $W\gets W-\alpha g_i$

用非均匀抽样替代均匀抽样

$p_t \propto |\delta_t|+\epsilon$
transition依据TD error进行降序处理，rank（t）代表第t个transition： $p_t \propto \frac{1}{rank(t)}+\epsilon$
总而言之，TD error越大，被抽样的概率越大，通常按Mini-batch进行抽样。

为了抵消不同抽样概率造成的学习偏差，需要对学习率进行变换

SGD: $W\gets W-\alpha \cdot g$
均匀抽样：学习率对于所有transition都一样(转换因子为1)： $p_1=p_2=...=p_n$
非均匀抽样：高概率对应低学习率： $(n\cdot p_t)^{-\beta}\\ \beta \in [0,1]$ 网络刚开始训练时，β设置较小，随着网络训练，逐渐增加β至1。