TD算法:
小猴子每走1步,看一下这个路口的V值,还有获得的奖励r;
回到原来的路口,把刚刚看到的V值和奖励r进行运算,估算出V值。
和蒙地卡罗(MC)不同:TD算法只需要走N步。就可以开始回溯更新。
和蒙地卡罗(MC)一样:小猴需要先走N步,每经过一个状态,把奖励记录下来。然后开始回溯。
那么,状态的V值怎么算呢?其实和蒙地卡罗一样,我们就假设N步之后,就到达了最终状态了。
假设“最终状态”上我们之前没有走过,所以这个状态上的纸是空白的。这个时候我们就当这个状态为0
假设“最终状态”上我们已经走过了,这个状态的V值,就是当前值。然后我们开始回溯。