强化学习—— Target Network & Double DQN(解决高估问题,overestimate)
1TD算法
- TD Target: y t = r t + m a x a Q ( s t + 1 , a ; W ) y_t = r_t +\mathop{max}\limits_{a}Q(s_{t+1},a;W) yt=rt+amaxQ(st+1,a;W)
- SGD: W ← W − α ⋅ ( Q ( s t , a t ; W ) − y t ) ⋅ ∂ Q ( s t , a t ; W ) ∂ W W\gets W-\alpha \cdot (Q(s_t,a_t;W)-y_t)\cdot \frac{\partial Q(s_t,a_t;W)}{\partial W} W←W−α⋅(Q(st,at;W)−yt)⋅∂W∂Q(st,at;W)
TD Target中的部分基于Q,并用于更新Q自身。
2. 高估问题
使用TD 算法进行学习使得DQN出现高估问题(overestiamte),两个主要原因为:
- TD Target比真实的动作价值更大(Maximization)。
- Bootstrapping

2.1 Maximization
2.1.1 数学解释
- 观测到实数: x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn
- 对实数x增加均值为0的噪音,得到: Q 1 , Q 2 , . . . , Q n Q_1,Q_2,...,Q_n Q1,Q2,...,Qn
- 均值为0的噪音并不影响增加前后的均值: E [ m e a n i ( Q i ) ] = E [ m e a n i ( x i ) ] E[mean_i(Q_i)]=E[mean_i(x_i)] E[meani(Qi)]=E[meani(xi)]
- 添加均值为0的噪音会增加添加后的最大值: E [ m a x i ( Q i ) ] ≥ E [ m a x i ( x i ) ] E[max_i(Q_i)]≥E[max_i(x_i)] E[maxi(Q
解决强化学习中高估问题:Target Network与Double DQN

本文探讨了强化学习中DQN算法的高估问题,包括最大化导致的动作价值高估和Bootstrapping引发的正反馈循环。介绍了Target Network作为解决方案,通过分离目标网络来减少高估,以及Double DQN如何避免最大化过程中的高估。这两种方法都是为了提高DQN的学习效果和稳定性。
最低0.47元/天 解锁文章
724

被折叠的 条评论
为什么被折叠?



