这是对TD算法的一种改进
回顾Sarsa和Q-learning:
这两种算法的TD target都包含一个rt,但是如果有多个奖励,则称为Multi-Step TD target,会让效果变得更好。
每次都是观测一组transition,即,这样算出的TD target叫做one-step TD target,其实可以考虑多个奖励计算TD target,然后对动作价值进行一次更新。如同时使用两个transition的奖励,这样算出的就叫做Multi-Step TD target:
推导:
将