强化学习之DQN流程详解

最新推荐文章于 2025-06-18 02:22:36 发布

原创

最新推荐文章于 2025-06-18 02:22:36 发布 · 6.7k 阅读

·

3

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文详细介绍了DQN（深度Q学习）算法，从Q学习基础流程开始，阐述了神经网络如何引入到Q值估计中，接着提到了DeepMind在2015年Nature论文中的两种关键改进策略：Experience Replay和Fixed Target Q-Network，最后总结了完整的DQN执行流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文的主要流程按照：

Q learning的基本流程
神经网络的引入
deepmind 2015年nature论文的两种改进策略
完整的DQN流程（参考上述论文）

来进行讲解。

1. Q learning 的基本流程

几个基础概念：

Q(s,a)--存储在状态s下动作a的Q value的矩阵，矩阵规模为num(s)*num(a);

s--状态，a--动作，r--回报值；

整个Q学习的过程是利用bellman公式的等式关系，来更新存储估计Q值的矩阵Q(s,a)，使它为智能体的动作选择提供最优的引导。

过程：

首先，当前的状态为s，要根据动作选择策略π(s)选择一个动作a，而这个π(s)所基于的参数与Q(s,a)有关。最常用的方法是ε-贪心算法，也就是每个状态有ε的概率进行探索（即随机选取），而剩下的1-ε的概率则进行利用（选取当前状态下Q值较大的那个动作）。ε一般取值较小，0.01即可。当然除了ε-greedy方法还有一些效果更好的方法。而选择的该动作a在当前状态s下的Q值，是Q(s,a)，这个Q值被认为是该状态-动作对的估计Q值。

得到动作a后，通过与环境的交互信息，使智能体1.到达s_状态2.获得回报值r。

关于回报值r的设定，最经典的办法：当s_不是最终状态时，r = 0；当s_是好的终止状态，r = 1；当s_是坏的终止状态，r = -1。

然后我们通过bellman公式计算得到(s,a)状态-动作对的真实Q值：Q*(s,a)=r+maxQ(s_,a_)。

r是到达s_状态得到的回报值，后面一项表达的是在s_时可以得到的最大Q值，（注意，这个Q值所代

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。