7 n-step Bootstrapping
n-step TD methods 是MC方法和TD方法更一般的推广。
另一方面,n-step methods 解决了之前更新时刻的不灵活问题。
n-step methods 通常被用来作为 eligibility traces 的算法思想的引子,eligibility traces 能够在多个时间间隔内同时进行自举。
7.1 n-step TD Prediction
根据多个中间时刻的收益进行更新。
n 步更新:n 步收益和 n 步之后的价值函数的估计值。
n-step TD methods:n 步更新方法仍然属于时序差分方法,这里的后继状态是 n 步后的状态。
n 步回报 G t : t + n G_{t:t+n} Gt:t+n 。
练习 7.1:时序差分误差之和的形式: G t : t + n − V t + n − 1 ( S t ) = ∑ k = t t + n − 1 γ k − t δ k G_{t:t+n} - V_{t+n-1}(S_t) = \sum_{k=t}^{t+n-1}\gamma^{k-t}\delta_k Gt:t+n−Vt+n−1(St)=∑k=tt+n−1γk−tδk
练习 7.2:使用时序差分误差之和来替代 n 步回报的更新公式。
n 步时序差分方法是一类有坚实数学基础的方法。误差减少性质。
例 7.1:n 取中间大小的值时效果最好。
练习 7.3
7.2 n-step Sarsa
将7.1中的状态替换为“状态-动作”二元组。
练习 7.4:将 n 步 Sarsa 算法的 n 步回报写成时序差分误差之和的形式。
图 7.4:n 步方法对策略学习的加速。在一幕中学习到更多知识。
n 步期望 Sarsa:期望近似价值 V ˉ t ( s ) \bar{V}_t(s) Vˉt(s) 。
7.3 n-step Off-policy Learning
离轨策略版本的 n 步 Sarsa。
离轨策略版本的 n 步期望 Sarsa。
7.4 Per-decision Methods with Control Variates
更新过程的方差大,使得我们使用小步长参数,导致学习速度非常缓慢。
练习 7.8 & 7.9:回报的TD误差形式。
7.5 The n-step Tree Backup Algorithm
树回溯:加上两侧未被选择的动作的估计价值。根据树回溯图,所有外部轮廓的动作节点参加了回溯。
练习 7.11:假设近似动作价值不变,将树回溯的回报写成期望TD误差之和的形式。
7.6 n-step Q ( σ ) Q(\sigma) Q(σ)
n 步自举法的一个统一框架:对状态逐个决定是采取采样操作,还是使用所有可能动作的期望。
7.7 Summary
相比单步算法,多步算法通常优于单纯的TD方法和MC方法,但是需要更大的计算量和内存。资格迹:用最少的内存和最小的计算复杂度来实现多步TD方法。
两种 n 步的离轨策略方法:基于重要度采样的方法;基于树回溯的方法。