强化学习与生成对抗网络:从游戏到数据生成的探索
1. Q - learning与SARSA算法
在高度不可预测的学习环境中,Q - learning表现出色。即便在每10%的移动后随机翻转一个方块的环境下,仅经过6000次训练运行,它也能应对这种不可预测性,并为大多数游戏找到理想解决方案。
然而,Q - learning存在一个缺陷,会降低其依赖的Q值的准确性。其更新规则假设下一步会选择得分最高的动作,并基于此计算新的Q值。但实际策略可能选择其他动作,这就导致计算使用了错误的数据,降低了新计算的Q值的准确性。
为解决这个问题,产生了SARSA算法。SARSA即“state - action - reward - state - action”,它与Q - learning的区别在于:
- 移动了动作选择步骤:不是在每一步开始时选择动作,而是在上一步就选择并记住。
- 记住所选动作:通过策略选择下一步的动作,而不是直接选择得分最高的动作。
下面是SARSA算法连续三步的操作流程:
| 步骤 | 操作 |
| ---- | ---- |
| 第一步 | (a)使用策略选择当前动作;(b)使用策略选择下一步动作,并根据下一步动作的Q值更新当前动作的Q值。 |
| 第二步 | (a)执行上一步选择的动作;(b)选择第三步的动作,并使用其Q值更新当前动作的Q值。 |
| 第三步 | (a)执行第二步确定的动作;(b)选择第四步的动作,并使用其Q值改进当前动作的Q值。 |
mermaid流程图如下:
强化学习与GAN:游戏与数据生成探索
超级会员免费看
订阅专栏 解锁全文
10

被折叠的 条评论
为什么被折叠?



