Sarsa
Sarsa与Q-Learning的区别
在Q-Learning算法当中未来的
Q
(
s
′
,
a
′
)
Q(s',a')
Q(s′,a′) 是估计出来的,
而Sarsa的
Q
(
S
2
,
a
2
)
Q(S2,a2)
Q(S2,a2)是计算出来的。
Q-Learning算法永远在寻找离目标最近的一条道路,
而Sarsa算法寻找的是一条比较安全的道路。
原视频:
https://www.bilibili.com/video/av16921335?p=9