Reinforcement Learning: An Introduction Second Edition - Chapter 7

7 n-step Bootstrapping

n-step TD methods 是MC方法和TD方法更一般的推广。

另一方面,n-step methods 解决了之前更新时刻的不灵活问题。

n-step methods 通常被用来作为 eligibility traces 的算法思想的引子,eligibility traces 能够在多个时间间隔内同时进行自举。

7.1 n-step TD Prediction

根据多个中间时刻的收益进行更新。

n 步更新:n 步收益和 n 步之后的价值函数的估计值。

n-step TD methods:n 步更新方法仍然属于时序差分方法,这里的后继状态是 n 步后的状态。

n 步回报 G t : t + n G_{t:t+n} Gt:t+n

练习 7.1:时序差分误差之和的形式: G t : t + n − V t + n − 1 ( S t ) = ∑ k = t t + n − 1 γ k − t δ k G_{t:t+n} - V_{t+n-1}(S_t) = \sum_{k=t}^{t+n-1}\gamma^{k-t}\delta_k Gt:t+nVt+n1(St)=k=tt+n1γktδk

练习 7.2:使用时序差分误差之和来替代 n 步回报的更新公式。

n 步时序差分方法是一类有坚实数学基础的方法。误差减少性质。

例 7.1:n 取中间大小的值时效果最好。

练习 7.3

7.2 n-step Sarsa

将7.1中的状态替换为“状态-动作”二元组。

练习 7.4:将 n 步 Sarsa 算法的 n 步回报写成时序差分误差之和的形式。

图 7.4:n 步方法对策略学习的加速。在一幕中学习到更多知识。

n 步期望 Sarsa:期望近似价值 V ˉ t ( s ) \bar{V}_t(s) Vˉt(s)

7.3 n-step Off-policy Learning

离轨策略版本的 n 步 Sarsa。

离轨策略版本的 n 步期望 Sarsa。

7.4 Per-decision Methods with Control Variates

更新过程的方差大,使得我们使用小步长参数,导致学习速度非常缓慢。

练习 7.8 & 7.9:回报的TD误差形式。

7.5 The n-step Tree Backup Algorithm

树回溯:加上两侧未被选择的动作的估计价值。根据树回溯图,所有外部轮廓的动作节点参加了回溯。

练习 7.11:假设近似动作价值不变,将树回溯的回报写成期望TD误差之和的形式。

7.6 n-step Q ( σ ) Q(\sigma) Q(σ)

n 步自举法的一个统一框架:对状态逐个决定是采取采样操作,还是使用所有可能动作的期望。

7.7 Summary

相比单步算法,多步算法通常优于单纯的TD方法和MC方法,但是需要更大的计算量和内存。资格迹:用最少的内存和最小的计算复杂度来实现多步TD方法。

两种 n 步的离轨策略方法:基于重要度采样的方法;基于树回溯的方法。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值