强化学习_08_Datawhale针对连续动作的深度Q网络

Scc_hy

于 2021-12-31 09:53:03 发布

阅读量765

点赞数

分类专栏：强化学习文章标签：网络回归机器学习强化学习

此文为笔者原创，如需转载请联系笔者:hyscc1994@foxmail.com

本文链接：https://blog.youkuaiyun.com/Scc_hy/article/details/122250074

版权

强化学习专栏收录该内容

27 篇文章

订阅专栏

深度Q网络(DQN)相比策略梯度方法在训练中表现出更好的稳定性和效率，因为DQN通过解决回归问题来估计Q函数，从而优化策略。然而，DQN在处理连续动作时遇到挑战，包括需要大量计算来确定最佳动作。解决方案包括：1) 直接最大化Q函数，但计算成本高；2) 设计网络输出动作向量、协方差矩阵和状态值，简化动作选择；3) 结合策略和价值方法，如Actor-Critic。这些策略有助于改善DQN在连续动作环境中的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

8-1 深度Q 网络相比于基于策略梯度方法为什么训练起来效果更好，更平稳？

DQN比较容易训练的一个理由是: 在DQN里面，我们zh9yao能够估计出q函数，就保证一定可以找到一个比较好的策略。也就是我们只要能够估计出Q函数，就保证可以改进策略。而估计Q函数是比较容易的，因为它就是一个回归问题。

8-2 深度Q 网络在处理连续型动作时存在什么样的问题呢？对应的解决方法有哪些呢？

它不大容易处理连续动作。

方案1. 最大化目标函数，将a作为参数，要找一组a去最大化Q函数，就用梯度上升去更新a值。但是等于是每次要决定采取哪一个动作的时候，都还要训练一次网络，显然运算量是很大的

方案2. 设计网络，输入s, Q函数输出3个东西: 向量u(s) 矩阵 $\sum(s)$ 标量 V(s)网络输出后才引入a $u(s))^T \sum(s)(a - u(s)) + V(s)$

方案3. 不用深度Q网络, 将基于策略的方法PPO和基于价值的方法DQN结合在一起，也就可以得到Actor-Criticor的方法

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Scc_hy 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。