Reinforcement Learning - An Introduction强化学习读书笔记 Ch5.3-Ch5.7

最新推荐文章于 2022-11-09 16:26:57 发布

华东师范大学小崔

最新推荐文章于 2022-11-09 16:26:57 发布

阅读量297

点赞数

分类专栏：强化学习入门文章标签：强化学习马尔可夫链蒙特卡洛方法

本文链接：https://blog.youkuaiyun.com/qq_41608822/article/details/107455563

版权

强化学习入门专栏收录该内容

22 篇文章

订阅专栏

本文探讨了蒙特卡洛方法在控制问题中的应用，包括策略迭代、策略评估与改进，以及on-policy与off-policy控制策略。介绍了重要度采样在off-policy控制中的作用，以及增量式实现和GPI流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

5.3蒙特卡洛控制

采用蒙特卡洛解决控制问题，采用类似于DP算法中广义策略迭代的方式。
在策略迭代中，同时维护近似的策略和近似的价值函数，通过不断迭代逼近真实的价值函数，并且根据价值函数调优策略。
策略评估：采用与DP中完全相同的方法，只要每个状态动作都被经历了无数次，MC即可以收敛。
策略改进：采用贪心算法，每次选择当前状态下最大的动作价值函数。
可证明根据贪心法，总能每步都得到更优的策略，且最终总会找到最优策略：
在这里插入图片描述
基于试探性出发的MC方法如下:

5.4没有试探性出发假设的蒙特卡洛控制

on-policy
用于生成采样数据序列的策略和用于实际决策的待评估和改进的策略是相同的。
off-policy
用于生成采样数据序列的策略和用于实际决策的待评估和改进的策略是不同的。
在on-policy中，策略一般是软性的，确保每一个动作都被遍历到。为了达到这个目的，采用 $\epsilon-greedy$ 。
GPI流程中并不要求优化过程中遵循的策略一定是贪心的，只需要逼近于贪心策略即可，因此可以用 $\epsilon-greedy$ 来代替试探性出发。
on-policy的首次访问型MC算法如下：、
在这里插入图片描述
而这个算法能使得策略改进定理成立：

注意其中的第一个不等号成立，是因为加入的是一个加权平均项，而这个权重的和是为1的，那么做一个和为1的权重的加权平均的话，其期望一定小于等于其中的最大值，而这个权重项进一步拆分之后就能得到同类项合并而得到结果。

5.5基于重要度采样的off-policy策略

off-policy采用两个策略，一个用来生成样本，更有试探性，称为行动策略。一个用来生成最优策略，称为目标策略。
行为策略必须是完全已知的，并且能被目标策略覆盖。即目标策略所有可能采取到的行动，在行为策略中被选取的概率也必须大于0。
重要度采样：
使用行动策略的采样结果来对目标策略进行更新会产生误差，一次你可以用轨迹在目标策略与行动策略中出现的相对概率进行加权，这个相对比例称为重要度采样比，对应的公式为：
在这里插入图片描述
注意整体的轨迹概率值是与MDP中的状态转移概率有关的，并且这种动态特性通常是未知的，但是在分子分母中可以将其约掉，所以重要度采样的最终结果只与两个策略和样本序列有关，而与动态特性无关。
使用比例系数之后，可以调整行动策略对应的回报使其具有正确的期望值。
重要度采样方法分为普通版和加权版：
在这里插入图片描述
普通重要度采样方法，是无偏估计，但方差大。

加权重要度采样方法，是有偏的，但是方差小，且在实践中进场能试的开始的错误率更低。