【强化学习】n步Bootstrapping

原创

已于 2022-08-11 11:52:35 修改 · 2k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

于 2021-07-04 00:18:56 首次发布

本文详细探讨了n步TD预测、Sarsa算法、off-policy学习以及Per-reward Off-policy方法，介绍了BootStrapping在多步更新中的应用，以及TreeBackup算法的工作原理。重点展示了n步学习的扩展和在实际问题中的优化策略。

目录

n步off - policy学习

Per-reward Off - policy 方法

n步Tree Backup算法

BootStrapping原是推论统计学里的概念。所谓推论统计学，就是根据样本统计量来推算总体的统计量。n部方法通常会被用作eligibility trace思想的一个例子，这个思想允许BootStrapping在多个时间段同时开展操作。n 步BootStrapping的性能一般要比MC方法和TD方法要好。

n步TD 预测

TD(0)实际上是1步TD算法，之所以是“1”，是因为它只需要计算1个后继行为和1个后继状态来更新当前状态。以此类推，当计算了n个后继行为及n个后继状态来更新当前状态时，则为n步TD预测。当 $n\rightarrow\infty$ 时，即为MC算法。如下图所示：

考虑根据“状态-收益”序列 $S_t,R_{t+1},S_{t+1},R_{t+2},...,R_T,S_T$ （省略行为A）来更新 $S_t$ 的价值。在MC算法中，价值 $v_\pi(S_\pi)$ ，的估计会沿着一条完整的episode进行更新：

其中， $T$ 是终止状态的时刻。在TD(0)中，累计收益是即时收益加上后继状态的价值函数估计值乘以折扣系数，称其为单步回报：

$G_{t:t+1}$ 的下标表示一种截断回报，由当前时刻 $t$ 到时刻 $t+1$ 的累积收益和折后回报 $\gamma V_t(S_{t+1})$ 组成，这种想法扩展到两步的情况为两步回报：

类似地，任意n步更新的目标是n步回报

n步回报可以看做是一个完整episode回报的近似，上式第n步（不包含n）以后的其余部分用 $V_{t+n-1}(S_{t+n})$ 来替代。如果

最低0.47元/天解锁文章

评论 2

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

查看更多评论

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。