强化学习经典算法笔记——SARSA算法
强化学习经典算法笔记(零):贝尔曼方程的推导
强化学习经典算法笔记(一):价值迭代算法Value Iteration
强化学习经典算法笔记(二):策略迭代算法Policy Iteration
强化学习经典算法笔记(三):蒙特卡罗方法Monte Calo Method
强化学习经典算法笔记(四):时间差分算法Temporal Difference(Q-Learning算法)
简介
上一篇讲到Off-policy的TD算法——Q-Learning。这一次要说说On-policy的SARSA算法。
首先说为什么叫SARSA算法。其实很简单,算法对Q值的更新依靠的是 s t s_t st转移到&s_{t+1}&所收集的信息,准确地说,利用下面这5个信息,就能更新一个状态的Q值,因此把5个字母拼起来就是SARSA算法了。
s t → a t → r t → s t + 1