【强化学习】n步Bootstrapping

本文详细探讨了n步TD预测、Sarsa算法、off-policy学习以及Per-reward Off-policy方法,介绍了BootStrapping在多步更新中的应用,以及TreeBackup算法的工作原理。重点展示了n步学习的扩展和在实际问题中的优化策略。

目录

n步TD 预测

n-step Sarsa

n步off - policy学习

Per-reward Off - policy 方法

n步Tree Backup算法


BootStrapping原是推论统计学里的概念。所谓推论统计学,就是根据样本统计量来推算总体的统计量。n部方法通常会被用作eligibility trace思想的一个例子,这个思想允许BootStrapping在多个时间段同时开展操作。n 步BootStrapping的性能一般要比MC方法和TD方法要好。

n步TD 预测

TD(0)实际上是1步TD算法,之所以是“1”,是因为它只需要计算1个后继行为和1个后继状态来更新当前状态。以此类推,当计算了n个后继行为及n个后继状态来更新当前状态时,则为n步TD预测。当n\rightarrow\infty时,即为MC算法。如下图所示:

考虑根据“状态-收益”序列S_t,R_{t+1},S_{t+1},R_{t+2},...,R_T,S_T(省略行为A)来更新S_t的价值。在MC算法中,价值v_\pi(S_\pi),的估计会沿着一条完整的episode进行更新:

其中,T是终止状态的时刻。在TD(0)中,累计收益是即时收益加上后继状态的价值函数估计值乘以折扣系数,称其为单步回报:

G_{t:t+1}的下标表示一种截断回报,由当前时刻t到时刻t+1的累积收益和折后回报\gamma V_t(S_{t+1})组成,这种想法扩展到两步的情况为两步回报:

类似地,任意n步更新的目标是n步回报

 n步回报可以看做是一个完整episode回报的近似,上式第n步(不包含n)以后的其余部分用V_{t+n-1}(S_{t+n})来替代。如果

评论 2
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值