强化学习基础知识笔记[6] - DQN

AaronXueNF

于 2021-11-09 16:49:16 发布

阅读量1k

点赞数

分类专栏：强化学习笔记文章标签：强化学习机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/AaronXueNF/article/details/121231705

版权

本文详细介绍了深度强化学习中的DQN算法，包括其利用卷积神经网络逼近行为值函数、经验回放以及独立的目标网络。接着讨论了DQN的非均匀过估计问题，并提出了DoubleDQN来解决此问题，通过分离动作选择和动作评估的值函数来减少过估计。最后，介绍了优先回放策略，通过采样具有较大TD偏差的数据以提高学习效率，并通过重要性采样系数修正有偏估计。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考资料
[1] 深度强化学习系列第一讲 DQN
本文主要是对该资料学习的笔记，并且加入了一些自己的想法，如有错误欢迎指出。

DQN

算法引入

DQN算法在Q-Learning算法上改进而来，具体改进三点：

利用卷积神经网络逼近行为值函数
该逼近方法属于非线性逼近。此处的值函数对应一组参数，为神经网络中每层网络的权重，用θ表示。此时值函数记为： $Q(s,a;\theta)$ 。DQN所用神经网络为三个卷积层加两个全连接层。
利用经验回放训练强化学习过程
DQN中Agent将数据存储到一个数据库中，再利用均匀随机采样从数据库中抽取数据，然后训练神经网络。这一过程可以打破数据间的相关性，克服神经网络不稳定的问题。
独立设置目标网络处理时间差分法中的TD偏差
对值函数逼近时DQN采用卷积神经网络，用梯度下降法更新。

值函数的更新公式为：
$\theta_{t+1} = \theta{t} + \alpha\lbrace r + \gamma max_{a'}Q(s',a';\theta^-)-Q(s,a;\theta) \rbrace \nabla Q(s,a;\theta) \tag{1}$

其中：

$\theta^-$ 为计算TD目标网络所用的参数，固定步数更新一次
$\theta$ 为计算值函数逼近网络所用参数，每一步都会更新
$\gamma max_{a'}Q(s',a';\theta^-)$

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。