https://www.cnblogs.com/jinxulin/p/5116332.html
Q-learning与sarsa算法最大的不同在于更新Q值的时候,直接使用了最大的值——相当于采用了
值最大的动作,并且与当前执行的策略,即选取动作
时采用的策略无关。
https://www.cnblogs.com/jinxulin/p/5116332.html
Q-learning与sarsa算法最大的不同在于更新Q值的时候,直接使用了最大的值——相当于采用了
值最大的动作,并且与当前执行的策略,即选取动作
时采用的策略无关。