17、深度强化学习：从游戏到现实世界的应用

red88

于 2025-09-07 15:45:51 发布

阅读量27

点赞数

CC 4.0 BY-SA版权

分类专栏：雕琢智能：AI的直观之旅文章标签：深度强化学习 DQN 双Q学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/red88/article/details/152071663

雕琢智能：AI的直观之旅专栏收录该内容

35 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

深度强化学习：从游戏到现实世界的应用

1. 深度Q网络（DQN）与双Q学习

1.1 双Q学习原理

在传统的DQN方法中，TD误差的计算为 (r + \gamma \max_{a’} Q(s’, a’) - Q(s, a))。而双Q学习是对DQN的一种改进，在计算TD误差时，使用两个深度神经网络（DNN），即策略网络 (P) 和目标网络 (T)，此时TD误差变为 (r + \gamma \max_{a’} T(s’, a’) - P(s, a))。

目标网络 (T) 会定期从策略网络 (P) 中更新其参数，并在两次更新之间保持参数冻结，这样做是为了保证算法的稳定性和更好的收敛性。如果目标网络和策略网络相同，就会形成一个反馈循环，在实际应用中往往不稳定，因为策略网络当前的输出会影响下一步的反向传播，就像狗追自己的尾巴一样。

1.2 深度Q学习训练方式

深度Q学习用DNN取代了Q学习中的质量表。深度Q网络通过最小化从经验回放记忆中采样的转换的时间差分误差的L2范数来进行训练。

2. 策略梯度方法

2.1 策略梯度与DQN对比

尽管DQN在2013年因让AI玩电子游戏而声名大噪，但策略梯度方法被证明更实用、更通用、更强大，它也是AlphaGo在与天才棋手李世石的对决中取得显著成功的关键。策略梯度方法可以直接学习随机策略，它能输出离散动作空间（可能是高维的）上的离散概率分布，也能处理连续动作空间。对于连续动作，它输出连续概率分布的参数，从中可以采样得到动作。相比之下，DQN适用于离散的低维动作空间，并学习确定性策略。

2.2 策略梯度的直觉理解

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。