Reinforcement Learning: An Introduction Second Edition - Chapter 7

会飞的斯芬克斯

已于 2023-02-27 19:52:42 修改

阅读量163

点赞数 1

分类专栏： Reinforcement Learning 文章标签：人工智能算法

于 2023-01-07 22:45:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/weixin_44909139/article/details/128586656

版权

Reinforcement Learning 专栏收录该内容

14 篇文章

订阅专栏

7 n-step Bootstrapping

n-step TD methods 是MC方法和TD方法更一般的推广。

另一方面，n-step methods 解决了之前更新时刻的不灵活问题。

n-step methods 通常被用来作为 eligibility traces 的算法思想的引子，eligibility traces 能够在多个时间间隔内同时进行自举。

7.1 n-step TD Prediction

根据多个中间时刻的收益进行更新。

n 步更新：n 步收益和 n 步之后的价值函数的估计值。

n-step TD methods：n 步更新方法仍然属于时序差分方法，这里的后继状态是 n 步后的状态。

n 步回报 $G_{t:t+n}$ 。

练习 7.1：时序差分误差之和的形式： $G_{t:t+n} - V_{t+n-1}(S_t) = \sum_{k=t}^{t+n-1}\gamma^{k-t}\delta_k$

练习 7.2：使用时序差分误差之和来替代 n 步回报的更新公式。

n 步时序差分方法是一类有坚实数学基础的方法。误差减少性质。

例 7.1：n 取中间大小的值时效果最好。

练习 7.3

7.2 n-step Sarsa

将7.1中的状态替换为“状态-动作”二元组。

练习 7.4：将 n 步 Sarsa 算法的 n 步回报写成时序差分误差之和的形式。

图 7.4：n 步方法对策略学习的加速。在一幕中学习到更多知识。

n 步期望 Sarsa：期望近似价值 $\bar{V}_t(s)$ 。

7.3 n-step Off-policy Learning

离轨策略版本的 n 步 Sarsa。

离轨策略版本的 n 步期望 Sarsa。

7.4 Per-decision Methods with Control Variates

更新过程的方差大，使得我们使用小步长参数，导致学习速度非常缓慢。

练习 7.8 & 7.9：回报的TD误差形式。

7.5 The n-step Tree Backup Algorithm

树回溯：加上两侧未被选择的动作的估计价值。根据树回溯图，所有外部轮廓的动作节点参加了回溯。

练习 7.11：假设近似动作价值不变，将树回溯的回报写成期望TD误差之和的形式。

7.6 n-step $Q(\sigma)$

n 步自举法的一个统一框架：对状态逐个决定是采取采样操作，还是使用所有可能动作的期望。

7.7 Summary

相比单步算法，多步算法通常优于单纯的TD方法和MC方法，但是需要更大的计算量和内存。资格迹：用最少的内存和最小的计算复杂度来实现多步TD方法。

两种 n 步的离轨策略方法：基于重要度采样的方法；基于树回溯的方法。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。