目录
BootStrapping原是推论统计学里的概念。所谓推论统计学,就是根据样本统计量来推算总体的统计量。n部方法通常会被用作eligibility trace思想的一个例子,这个思想允许BootStrapping在多个时间段同时开展操作。n 步BootStrapping的性能一般要比MC方法和TD方法要好。
n步TD 预测
TD(0)实际上是1步TD算法,之所以是“1”,是因为它只需要计算1个后继行为和1个后继状态来更新当前状态。以此类推,当计算了n个后继行为及n个后继状态来更新当前状态时,则为n步TD预测。当时,即为MC算法。如下图所示:

考虑根据“状态-收益”序列(省略行为A)来更新
的价值。在MC算法中,价值
,的估计会沿着一条完整的episode进行更新:

其中,是终止状态的时刻。在TD(0)中,累计收益是即时收益加上后继状态的价值函数估计值乘以折扣系数,称其为单步回报:

的下标表示一种截断回报,由当前时刻
到时刻
的累积收益和折后回报
组成,这种想法扩展到两步的情况为两步回报:

类似地,任意n步更新的目标是n步回报

n步回报可以看做是一个完整episode回报的近似,上式第n步(不包含n)以后的其余部分用来替代。如果

本文详细探讨了n步TD预测、Sarsa算法、off-policy学习以及Per-reward Off-policy方法,介绍了BootStrapping在多步更新中的应用,以及TreeBackup算法的工作原理。重点展示了n步学习的扩展和在实际问题中的优化策略。
最低0.47元/天 解锁文章
1241





