DQN_Continuous_Action

最新推荐文章于 2024-07-22 00:18:39 发布

Ricky050

最新推荐文章于 2024-07-22 00:18:39 发布

阅读量200

点赞数

分类专栏： RL算法文章标签：机器学习强化学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/zzping01/article/details/120354590

版权

RL算法专栏收录该内容

10 篇文章

订阅专栏

本文探讨了Q-learning在连续动作空间的应用，并对比了其与基于策略梯度的方法的优势。提出了四种解决方案，包括随机采样动作、梯度上升法、设计特定网络以及结合PPO与Q-learning的Actor-Critic算法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

Q-learning for Continuous Actions

Q-learning for Continuous Actions

Q：Q-learning相比于policy gradient based方法为什么训练起来效果更好，更平稳？

A：只要能够 estimate 出Q-function，就保证可以 improve 对应的 policy。而因为 estimate Q-function 作为一个回归问题，一般情况下只需要关注 regression 的 loss 有没有下降，就知道 model learn 的好不好。所以 estimate Q-function 相较于 learn 一个 policy 是比较容易的。

Solution1–sample action

随机sample出N个可能的action，然后和discrete action space 一样操作就好了

Solution2–gradient ascend

将action看为我们的变量，使用gradient ascend方法去update action对应的Q-value。

Solution3–design a network

产生的∑保证了其正定性，因此上式的第一项恒为负值，只需令 $a = μ (s)$ 就可以确定Q值最大

Solution4–Don’t use Q-learning

结合 policy-based 的方法 PPO 和 value-based 的方法 Q-learning，就是 actor-critic 算法。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。