强化学习_08_Datawhale针对连续动作的深度Q网络

深度Q网络(DQN)相比策略梯度方法在训练中表现出更好的稳定性和效率,因为DQN通过解决回归问题来估计Q函数,从而优化策略。然而,DQN在处理连续动作时遇到挑战,包括需要大量计算来确定最佳动作。解决方案包括:1) 直接最大化Q函数,但计算成本高;2) 设计网络输出动作向量、协方差矩阵和状态值,简化动作选择;3) 结合策略和价值方法,如Actor-Critic。这些策略有助于改善DQN在连续动作环境中的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

8-1 深度Q 网络相比于基于策略梯度方法为什么训练起来效果更好,更平稳?

DQN比较容易训练的一个理由是: 在DQN里面,我们zh9yao能够估计出q函数,就保证一定可以找到一个比较好的策略。也就是我们只要能够估计出Q函数,就保证可以改进策略。而估计Q函数是比较容易的,因为它就是一个回归问题。

8-2 深度Q 网络在处理连续型动作时存在什么样的问题呢?对应的解决方法有哪些呢?

它不大容易处理连续动作。

方案1. 最大化目标函数,将a作为参数,要找一组a去最大化Q函数,就用梯度上升去更新a值。但是 等于是每次要决定采取哪一个动作的时候,都还要训练一次网络,显然运算量是很大的

方案2. 设计网络,输入s, Q函数输出3个东西: 向量u(s) 矩阵 ∑ ( s ) \sum(s) (s) 标量 V(s)网络输出后才引入a Q < s , a > = − ( a − u ( s ) ) T ∑ ( s ) ( a − u ( s ) ) + V ( s ) Q<s, a> = -(a - u(s))^T \sum(s)(a - u(s)) + V(s) Q<s,a>=(au(s))T(s)(au(s))+V(s)

方案3. 不用深度Q网络, 将基于策略的方法PPO和基于价值的方法DQN结合在一起,也就可以得到Actor-Criticor的方法

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Scc_hy

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值