强化学习:从L学习到Q学习的升级
1. L学习算法的局限性
在某些学习场景中,L学习算法存在明显的不足。以一个类似游戏的场景为例,当一辆卡车经过时,可能会随机翻转一个方块,导致游戏的走向发生变化。原本某个单元格可能是得分最高的选择,但在卡车经过后,新的奖励值可能会覆盖旧值,使得该单元格不再是最优选择。
在训练过程中,偶尔会随机选择一行中的某个单元格进行探索。但这种随机性可能导致我们忘记如何在特定棋盘上做出最优决策。L表往往不如预期的那样理想,基于L学习的游戏通常耗时更长,获得的奖励也更低。这就是为什么我们认为L学习算法存在缺陷。
2. Q学习算法的引入
2.1 升级概述
我们可以将L学习算法升级为Q学习算法,这是一种目前广泛使用且更为有效的算法。Q学习与L学习有相似之处,但它使用Q表来存储Q值。Q学习的重大改进在于,它能够在随机或不可预测的环境中表现出色。
从L学习到Q学习的升级主要包括三个方面:
- 改进Q表单元格新值的计算方法。
- 优化现有值的更新方式。
- 采用新的策略来选择行动。
2.2 Q表算法的原则
Q表算法基于两个重要原则:
- 预期结果存在不确定性,因此从一开始就将其纳入考虑。
- 随着过程的进行逐步计算新的Q表值,而不是等待最终奖励。这种方式使我们能够处理长时间甚至可能没有明确结束的游戏或过程,例如电梯调度。即使没有最终奖励,我们也能通过不断更新来构建有用的Q表。
为了实现这一点,我们还需要升级环境的奖励机制。不再像之前那样,除了最后一步外都给予零奖励,而是在每次采取行动后立即返回
超级会员免费看
订阅专栏 解锁全文
441

被折叠的 条评论
为什么被折叠?



