强化学习—— Target Network & Double DQN(解决高估问题,overestimate)

解决强化学习中高估问题:Target Network与Double DQN
本文探讨了强化学习中DQN算法的高估问题,包括最大化导致的动作价值高估和Bootstrapping引发的正反馈循环。介绍了Target Network作为解决方案,通过分离目标网络来减少高估,以及Double DQN如何避免最大化过程中的高估。这两种方法都是为了提高DQN的学习效果和稳定性。

1TD算法

  1. TD Target: y t = r t + m a x a Q ( s t + 1 , a ; W ) y_t = r_t +\mathop{max}\limits_{a}Q(s_{t+1},a;W) yt=rt+amaxQ(st+1,a;W)
  2. SGD: W ← W − α ⋅ ( Q ( s t , a t ; W ) − y t ) ⋅ ∂ Q ( s t , a t ; W ) ∂ W W\gets W-\alpha \cdot (Q(s_t,a_t;W)-y_t)\cdot \frac{\partial Q(s_t,a_t;W)}{\partial W} WWα(Q(st,at;W)yt)WQ(st,at;W)
    TD Target中的部分基于Q,并用于更新Q自身。

2. 高估问题

使用TD 算法进行学习使得DQN出现高估问题(overestiamte),两个主要原因为:

  1. TD Target比真实的动作价值更大(Maximization)。
  2. Bootstrapping
    在这里插入图片描述

2.1 Maximization

2.1.1 数学解释

  1. 观测到实数: x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn
  2. 对实数x增加均值为0的噪音,得到: Q 1 , Q 2 , . . . , Q n Q_1,Q_2,...,Q_n Q1,Q2,...,Qn
  3. 均值为0的噪音并不影响增加前后的均值: E [ m e a n i ( Q i ) ] = E [ m e a n i ( x i ) ] E[mean_i(Q_i)]=E[mean_i(x_i)] E[meani(Qi)]=E[meani(xi)]
  4. 添加均值为0的噪音会增加添加后的最大值: E [ m a x i ( Q i ) ] ≥ E [ m a x i ( x i ) ] E[max_i(Q_i)]≥E[max_i(x_i)] E[maxi(Q
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值