强化学习DDQN与DQN深度解析

开门，教教我

已于 2024-10-08 16:41:07 修改

阅读量2.3k

点赞数 25

CC 4.0 BY-SA版权

文章标签：学习

于 2024-08-31 15:51:50 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_49192842/article/details/141750931

目录

二、q-learning

3.1 DQN具体组成

3.2 DQN工作流程

3.3 概念疑问

3.4 网络运行示例

参考文章：

一、引言

本文将并以DQN为主，依次介绍三大经典强化学习算法——Q-learning、DQN与DDQN，按网络实际运行流程，剖析其实现细节。

个人理解，学习记录，如有侵权，联系删除。

二、q-learning

强化学习在于环境交互中需要存储状态、动作到Q表中，

缺点：在现实世界中，状态的数量可能是巨大的，因此使得构建一个表在计算上很难。

因此，用函数代替q表，即得到Q-learning算法

三、DQN

q-learning的缺点：函数单一，难以描述复杂的真实场景

神经网络是最佳函数逼近器，其对复杂函数的建模能力很强，所以我们可以使用一个神经网络，即深度Q网络来估计这个Q函数。

3.1 DQN具体组成

如果状态可以通过一组数字变量表示，则可以使用两个隐藏层组成网络。如果状态数据以图像或文本形式表示，则可以使用常规的CNN或RNN体系结构。

3.2 DQN工作流程

下图表示了DQN网络的数据存放与取出、样本放入两个Q网络、损失函数、训练、参数复制、存储经验的流程

最低0.47元/天解锁文章

200万优质内容无限畅学

开门，教教我

博客等级

码龄5年

3
原创

52
点赞

106
收藏

21
粉丝

关注

私信

热门文章

上一篇：: 凸与非凸优化问题

最新评论

强化学习DDQN与DQN深度解析
m0_52180958: 很有帮助
凸与非凸优化问题
优快云-Ada助手: 非常感谢您分享关于凸与非凸优化问题的博文！您对强化学习解决非凸优化问题的原理进行了深入的探讨，让人受益匪浅。除了提到的凸集和凸函数，您还可以进一步介绍一些常见的非凸优化算法，如遗传算法、模拟退火算法等，它们在解决实际问题中也有着重要的应用。希望您能继续分享更多关于优化问题的知识，不断丰富自己的专业技能！期待您的下一篇博文！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
overleaf报错记录
优快云-Ada助手: 恭喜你开始博客创作！标题“overleaf报错记录”听起来很有实用价值。通过记录报错的过程，你不仅可以帮助自己解决问题，还能为其他人提供宝贵的经验教训。接下来，我建议你可以继续分享一些关于overleaf的技巧和实用指南，或者探索一些与LaTeX相关的主题。期待看到更多有趣且有帮助的内容！继续加油！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。