Sarsa(state-action-reward-state_-action_)
1.与Q_Learning的区别
Sarsa是on-policy,即在线学习型,下一个 state_和action_ 将会变成他真正采取的 action 和 state;Q_Learning是off-policy,即离线学习型,state_和 action_ 在算法更新的时候都还是不确定的。这种不同之处使得 Sarsa 相对于 Qlearning, 更加的深入. 因为 Qlearning保证了一个stage下一次的value最大化, 对于Sarsa 是一种保守的算法, 他在乎每一步决策, 以及下一步需要的stage和action。两种算法都有他们的好处, 比如在实际中, 你比较在乎机器的损害, 用一种保守的算法, 在训练时就能减少损坏的次数。
2.算法流程
解释一下,和Q_Learning一样的流程,选择stage_和action_同样用了贪婪的方法,唯一的区别,来看看这个更新Q表的公式: