强化学习—— 经验回放(Experience Replay)

本文介绍了DQN算法及其存在的经验浪费和相关更新问题,提出了经验回放作为解决方案,通过存储和随机抽样transition来打破序列相关性。进一步探讨了改进的经验回放——优先级重放,利用TD误差进行非均匀抽样,并通过学习率变换平衡训练。这种方法提高了样本效率,尤其适用于深度强化学习中的高效训练。

在这里插入图片描述

1、DQN的缺点

1.1 DQN

  • 近似最优动作价值函数: Q ( s , a ; W ) ∼ Q ⋆ ( s , a ) Q(s,a;W)\sim Q^\star (s,a) Q(s,a;W)Q(s,a)
  • TD error: δ t = q t − y t \delta_t=q_t-y_t δt=qtyt
  • TD Learning: L ( W ) = 1 T ∑ t = 1 T δ t 2 2 L(W)=\frac{1}{T}\sum_{t=1}^{T} \frac{\delta_t^2}{2} L(W)=T1t=1T2δt2

1.2 DQN的不足

1.2.1 经验浪费

  • 一个 transition为: ( s t , a t , r t , s t + 1 ) (s_t,a_t,r_t,s_{t+1}) (st,at,rt,st+1)
  • 经验(所有的transition)为: { ( s 1 , a 1 , r 1 , s 2 , ) , . . . ( s t , a t , r t , s t + 1 ) , . . . , s T , a T , r T , s T + 1 } \{(s1,a1,r1,s2,),...(s_t,a_t,r_t,s_{t+1}),...,s_T,a_T,r_T,s_{T+1}\} { (s1,a1,r1,s2,),...(st,at,rt,st+1),...,s
评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值