强化学习：MC Absolute Grady算法的实例分析与课程总结5-6-优快云博客

本文链接：https://blog.youkuaiyun.com/zhong_vic/article/details/147108678

MC Absolute Grady算法的实例分析与课程总结

MC Absolute Grady算法实例

探索性实例：
- $\epsilon = 1$ 的情况：当 $\epsilon = 1$ 时，在每个状态有五个action的场景中，每个action被赋予 $0.2$ 的概率。从某一点出发，根据该策略生成episode。当episode只有 $100$ 步时，能探索到不少状态； $1000$ 步时，基本上所有的状态及其相应的action都能被探索到； $100$ 万步时，每个状态-动作对 $(s, a)$ 都被访问了很多次（例如七八千次）。通过视频展示，agent根据该策略在环境中探索，蓝色箭头表示其所在状态和选择的action，开始时agent被困在某区域，但因每个action都有被选择的概率，最终能访问到大部分状态和action，直观体现了 $\epsilon$ 较大时探索性强，无需exploring stars条件，从某些 $(s, a)$ 出发就能覆盖其他所有的 $(s, a)$ 。
- $\epsilon$ 较小时的情况：当 $\epsilon$ 较小时，探索能力较弱。例如在 $100$ 步时，访问的状态较少，即使到 $1000$ 步、 $1$ 万步，仍有一些action未被访问到。即便将episode长度变为 $100$ 万步，有些 $(s, a)$ 被访问的次数很多，而有些较少。但相比greedy策略， $\epsilon$ -greedy策略仍有一定的探索能力。
结合蒙特卡罗算法的实例：
- 每一个iteration中，用当前的 $\epsilon$ -greedy策略生成一个 $100$ 万步长的episode，然后用这个episode去更新所有的 $(s, a)$ 所对应的action value以及更新策略。最初的策略是在每个状态都以相同概率选择所有action，显然不好。经过多次更新策略后，得到的策略相对合理，从任何一点出发都能到达目标，但会穿过障碍物，并非最优策略（最优策略应绕过障碍物到达目标）。这表明 $\epsilon$ -greedy策略通过探索性获得了一些好处，但牺牲了最优性。
- 实际中可以平衡探索性和最优性，设置较小的 $\epsilon$ 值，当 $\epsilon$ 趋向于 $0$ 时， $\epsilon$ -greedy策略就接近greedy策略，用该算法找到的最优的 $\epsilon$ -greedy策略也接近最优的greedy策略。还可以让 $\epsilon$ 在开始时较大，具有较强的探索能力，然后逐渐减小到 $0$ ，这样最终得到的策略会有较好的最优性。
最优性实例：
- 给出一个策略，求解其贝尔曼公式得到对应的state value。第一个策略 $\epsilon$ 等于 $0$ ，是一个greedy策略且在该情况下是最优的，其对应的state value已给出。
- 第二个策略与第一个策略是一致的（consistent），即在某些位置上，第一个策略最大概率的动作选择，在第二个策略中也有较大概率选择，同时第二个策略给其他action也赋予了较小的概率。计算出的第二个策略的state value比第一个小，因为在很多地方采取了不该采取的动作。随着 $\epsilon$ 增大，state value变得更小，当 $\epsilon = 0.5$ 时，很多值已变为负数。state value可用于衡量一个策略的好坏，最优策略基于最大的state value。虽然所有策略都与最优的greedy策略保持一定一致性，但随着 $\epsilon$ 增大，最优性越来越差，例如在目标区域（target area），在最优策略中是最大值，但当 $\epsilon$ 较大时，反而变成最小值（负数），因为在该位置有较大概率进入禁止区域（forbidden area）从而得到负数的reward。
不同 $\epsilon$ 值下的策略一致性实例：用mc $\epsilon$ -greedy算法，设置 $\epsilon = 0.1$ ，得到的策略与最优策略是一致的（consistent），即在任何一个状态下，最优策略的动作选择，在该算法得到的策略中最大概率也是该动作选择。在实际应用中，得到 $\epsilon$ -greedy策略后会将其转换为greedy策略，希望转换后的greedy策略与最优策略相同，当 $\epsilon = 0.1$ 时能满足这一期望。但当 $\epsilon = 0.2$ 时，最优的 $\epsilon$ -greedy策略与最优的greedy策略就没有太大关系，转换后两者不一样；当 $\epsilon = 0.5$ 时，得到的最优策略转换为greedy策略后也不再是最优的greedy策略。这说明使用mc $\epsilon$ -greedy算法时， $\epsilon$ 不能太大，技巧是开始时 $\epsilon$ 较大以保证探索性，最后逐渐减小到 $0$ ，从而得到最优策略。

课程总结

蒙特卡罗方法引入：课程最开始通过motivation example介绍了蒙特卡罗方法，即无需模型，用数据去估计一个期望（expectation）。
算法关系：基于蒙特卡罗方法提出了三种算法，这三个算法关系紧密，从最简单的算法逐渐变得复杂，效率也越来越高。
$\epsilon$ -Greedy策略性质：通过大量例子说明了 $\epsilon$ -greedy策略的一些性质，包括探索性和最优性，以及如何平衡两者以获得更好的策略。

本次课内容庞杂且逻辑性强，希望能对大家理解相关知识有所帮助，简要回顾了课程内容后，期待下次再见。