强化学习:SARSA 与 DQN 算法解析
1. SARSA 算法概述
SARSA 算法有两个主要元素:使用时序差分(TD)学习来学习 Q 函数,以及利用 Q 值估计进行动作选择的方法。
-
学习率对 SARSA 性能的影响 :学习率对 SARSA 算法的学习曲线有显著影响。当学习率较高时,智能体学习速度更快。例如在 CartPole 环境中,在试验 5 和 6 里,SARSA 能快速获得 200 的最大总奖励。而当学习率较低时,智能体学习速度过慢,如试验 0、1、2 所示。
-
Q 函数的学习 :Q 函数是 SARSA 学习的价值函数的良好选择。TD 学习通过最小化基于贝尔曼方程的两种 Q 函数表达式之间的差异来近似 Q 函数。TD 学习的关键思想在于,在强化学习问题中,奖励是随时间逐步揭示的,它利用这一特性将未来时间步的信息回溯到早期的 Q 函数估计中。
-
动作选择策略 :学习完 Q 函数后,可以通过 ε - 贪心策略来导出一个良好的策略。即智能体以概率 ε 随机行动,否则选择对应最大 Q 值估计的动作。ε - 贪心策略是解决强化学习中探索 - 利用问题的简单方法,智能体需要在利用已知信息和探索环境以发现更好解决方案之间取得平衡。
-
SARSA 算法的实现 :实现 SARSA 算法时,最重要的组件包括动作函数(用于计算 Q 值和相关损失)和训练循环。这些通过
epsilon_greedy
超级会员免费看
订阅专栏 解锁全文
740

被折叠的 条评论
为什么被折叠?



