时间差分方法Q-learning和sarsa的区别

最新推荐文章于 2025-07-24 14:44:51 发布

原创

最新推荐文章于 2025-07-24 14:44:51 发布 · 2.9k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#强化学习 #Q-learning #sarsa

Q-learning和SARSA是强化学习中使用时间差分目标更新策略的方法。Q-learning是异策略，评估的策略不同于数据产生的策略，而SARSA是同策略，两者相同。在SARSA中，选择策略只在每幕开始时进行，而Q-learning在每次迭代中都重新选择策略，以最大Q值的动作进行更新。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Q-learning和sarsa都是利用时间差分目标来更新当前行为值函数的。唯一不同的是在Q-learning中,行动策略(产生数据的策略)和要评估的策略不是一个策略，因此称之为异策略(off-policy),而在sarsa中，正好相反，也就是行动策略(产生数据的策略)和要评估的策略是一个策略，称之为同策略(on-policy)。下面从算法的角度解释其中的区别。

如上图所示，为sarsa的算法流程图。

第一个repeat循环表示每一幕（产生一轮数据或者对游戏来说是玩一局完整的游戏）。首先初始化状态 $S$ ，然后根据 $Q$ 网络结构和 $\varepsilon -greedy$ 策略选择一个动作 $A$ ，下面的循环是对当前幕来说，划个重点！！这里和Q-learning有个很大的区别就是这里的选择策略A在下面循环的外面，因为对当前幕的循环来说，选择策略只需要最开始选择一次就行了，因为同策略(on-policy)的关系，行动策略(对应于当前的选择策略 $A$ )和要评估的策略(下面进行更新的策略)是一个策