58、强化学习与生成对抗网络:从游戏到数据生成的探索

强化学习与GAN:游戏与数据生成探索

强化学习与生成对抗网络:从游戏到数据生成的探索

1. Q - learning与SARSA算法

在高度不可预测的学习环境中,Q - learning表现出色。即便在每10%的移动后随机翻转一个方块的环境下,仅经过6000次训练运行,它也能应对这种不可预测性,并为大多数游戏找到理想解决方案。

然而,Q - learning存在一个缺陷,会降低其依赖的Q值的准确性。其更新规则假设下一步会选择得分最高的动作,并基于此计算新的Q值。但实际策略可能选择其他动作,这就导致计算使用了错误的数据,降低了新计算的Q值的准确性。

为解决这个问题,产生了SARSA算法。SARSA即“state - action - reward - state - action”,它与Q - learning的区别在于:
- 移动了动作选择步骤:不是在每一步开始时选择动作,而是在上一步就选择并记住。
- 记住所选动作:通过策略选择下一步的动作,而不是直接选择得分最高的动作。

下面是SARSA算法连续三步的操作流程:
| 步骤 | 操作 |
| ---- | ---- |
| 第一步 | (a)使用策略选择当前动作;(b)使用策略选择下一步动作,并根据下一步动作的Q值更新当前动作的Q值。 |
| 第二步 | (a)执行上一步选择的动作;(b)选择第三步的动作,并使用其Q值更新当前动作的Q值。 |
| 第三步 | (a)执行第二步确定的动作;(b)选择第四步的动作,并使用其Q值改进当前动作的Q值。 |

mermaid流程图如下:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值