58、强化学习与生成对抗网络：从游戏到数据生成的探索

强化学习与GAN：游戏与数据生成探索

最新推荐文章于 2025-09-02 15:47:05 发布

人间计算器

最新推荐文章于 2025-09-02 15:47:05 发布

阅读量32

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的视觉之旅文章标签：强化学习 SARSA Q-learning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/swift5iosmith/article/details/151036118

深度学习的视觉之旅专栏收录该内容

65 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习与生成对抗网络：从游戏到数据生成的探索

1. Q - learning与SARSA算法

在高度不可预测的学习环境中，Q - learning表现出色。即便在每10%的移动后随机翻转一个方块的环境下，仅经过6000次训练运行，它也能应对这种不可预测性，并为大多数游戏找到理想解决方案。

然而，Q - learning存在一个缺陷，会降低其依赖的Q值的准确性。其更新规则假设下一步会选择得分最高的动作，并基于此计算新的Q值。但实际策略可能选择其他动作，这就导致计算使用了错误的数据，降低了新计算的Q值的准确性。

为解决这个问题，产生了SARSA算法。SARSA即“state - action - reward - state - action”，它与Q - learning的区别在于：
- 移动了动作选择步骤：不是在每一步开始时选择动作，而是在上一步就选择并记住。
- 记住所选动作：通过策略选择下一步的动作，而不是直接选择得分最高的动作。

下面是SARSA算法连续三步的操作流程：
| 步骤 | 操作 |
| ---- | ---- |
| 第一步 | （a）使用策略选择当前动作；（b）使用策略选择下一步动作，并根据下一步动作的Q值更新当前动作的Q值。 |
| 第二步 | （a）执行上一步选择的动作；（b）选择第三步的动作，并使用其Q值更新当前动作的Q值。 |
| 第三步 | （a）执行第二步确定的动作；（b）选择第四步的动作，并使用其Q值改进当前动作的Q值。 |

mermaid流程图如下：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。