Importance Sample 减小prioritized experience replay带来的概率不均问题

在强化学习中,由于off-policy学习,我们使用Importance Sampling(IS)来修正不同策略间的样本偏差。在Prioritized Experience Replay(PER)中,IS有助于消除因非均匀采样引入的偏差,确保训练效率和收敛一致性。通过调整权重因子β,可以平衡样本多样性和梯度影响的一致性。伪代码展示了Double DQN结合PER和IS的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

Importance Sample的定义

在这里插入图片描述
李宏毅老师的PPO的讲解中我们可以知道,我们本来要计算p分布下f(x)的期望,但是现在我们不从p中采样,我们从q中采样x,来计算f(x)的期望。在上图中我们可以看到经过变形,f(x)乘上了一个p(x)/q(x),这个p(x)/q(x)相当于一个修正p,q分布差异的权重因子。
在这里插入图片描述
当然p和q也不能相差太大,虽然两者均值一样,但是当p(x)/q(x)太大时,方差就不一样了,如果采样不够多的话,也会导致两者均值不一样。
我们是因为off-policy,而引出的importance sample 。在off-policy中,我们采样时使用的策略和更新的策略不是同一个,这样我们就可以拿采样的数据进行多次更新,从而提高样本利用率。这个过程我们需要使用importance sample来保证两个策略不要相差太大。(相差太大,就不能用采样的数据来更新另一个策略了,越更新越差)

在这里插入图片描述
这里解释一下:为什么本身策略θ的数据不能进行多次更新?
因为当我们第一次拿数据去更新策略后,策略已经变了,而我们是在策略更新时获取样本数据,所以再次采样得到的数据就和上次更新使用的数据不一样

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值