强化学习:MC Absolute Grady算法的实例分析与课程总结5-6

MC Absolute Grady算法的实例分析与课程总结

MC Absolute Grady算法实例

  1. 探索性实例
    • ϵ = 1 \epsilon = 1 ϵ=1的情况:当 ϵ = 1 \epsilon = 1 ϵ=1时,在每个状态有五个action的场景中,每个action被赋予 0.2 0.2 0.2的概率。从某一点出发,根据该策略生成episode。当episode只有 100 100 100步时,能探索到不少状态; 1000 1000 1000步时,基本上所有的状态及其相应的action都能被探索到; 100 100 100万步时,每个状态-动作对 ( s , a ) (s, a) (s,a)都被访问了很多次(例如七八千次)。通过视频展示,agent根据该策略在环境中探索,蓝色箭头表示其所在状态和选择的action,开始时agent被困在某区域,但因每个action都有被选择的概率,最终能访问到大部分状态和action,直观体现了 ϵ \epsilon ϵ较大时探索性强,无需exploring stars条件,从某些 ( s , a ) (s, a) (s,a)出发就能覆盖其他所有的 ( s , a ) (s, a) (s,a)
    • ϵ \epsilon ϵ较小时的情况:当 ϵ \epsilon ϵ较小时,探索能力较弱。例如在 100 100 100步时,访问的状态较少,即使到 1000 1000 1000步、 1 1 1万步,仍有一些action未被访问到。即便将episode长度变为 100 100 100万步,有些 ( s , a ) (s, a) (s,a)被访问的次数很多,而有些较少。但相比greedy策略, ϵ \epsilon ϵ-greedy策略仍有一定的探索能力。
  2. 结合蒙特卡罗算法的实例
    • 每一个iteration中,用当前的 ϵ \epsilon ϵ-greedy策略生成一个 100 100 100万步长的episode,然后用这个episode去更新所有的 ( s , a ) (s, a) (s,a)所对应的action value以及更新策略。最初的策略是在每个状态都以相同概率选择所有action,显然不好。经过多次更新策略后,得到的策略相对合理,从任何一点出发都能到达目标,但会穿过障碍物,并非最优策略(最优策略应绕过障碍物到达目标)。这表明 ϵ \epsilon ϵ-greedy策略通过探索性获得了一些好处,但牺牲了最优性。
    • 实际中可以平衡探索性和最优性,设置较小的 ϵ \epsilon ϵ值,当 ϵ \epsilon ϵ趋向于 0 0 0时, ϵ \epsilon ϵ-greedy策略就接近greedy策略,用该算法找到的最优的 ϵ \epsilon ϵ-greedy策略也接近最优的greedy策略。还可以让 ϵ \epsilon ϵ在开始时较大,具有较强的探索能力,然后逐渐减小到 0 0 0,这样最终得到的策略会有较好的最优性。
  3. 最优性实例
    • 给出一个策略,求解其贝尔曼公式得到对应的state value。第一个策略 ϵ \epsilon ϵ等于 0 0 0,是一个greedy策略且在该情况下是最优的,其对应的state value已给出。
    • 第二个策略与第一个策略是一致的(consistent),即在某些位置上,第一个策略最大概率的动作选择,在第二个策略中也有较大概率选择,同时第二个策略给其他action也赋予了较小的概率。计算出的第二个策略的state value比第一个小,因为在很多地方采取了不该采取的动作。随着 ϵ \epsilon ϵ增大,state value变得更小,当 ϵ = 0.5 \epsilon = 0.5 ϵ=0.5时,很多值已变为负数。state value可用于衡量一个策略的好坏,最优策略基于最大的state value。虽然所有策略都与最优的greedy策略保持一定一致性,但随着 ϵ \epsilon ϵ增大,最优性越来越差,例如在目标区域(target area),在最优策略中是最大值,但当 ϵ \epsilon ϵ较大时,反而变成最小值(负数),因为在该位置有较大概率进入禁止区域(forbidden area)从而得到负数的reward。
  4. 不同 ϵ \epsilon ϵ值下的策略一致性实例:用mc ϵ \epsilon ϵ-greedy算法,设置 ϵ = 0.1 \epsilon = 0.1 ϵ=0.1,得到的策略与最优策略是一致的(consistent),即在任何一个状态下,最优策略的动作选择,在该算法得到的策略中最大概率也是该动作选择。在实际应用中,得到 ϵ \epsilon ϵ-greedy策略后会将其转换为greedy策略,希望转换后的greedy策略与最优策略相同,当 ϵ = 0.1 \epsilon = 0.1 ϵ=0.1时能满足这一期望。但当 ϵ = 0.2 \epsilon = 0.2 ϵ=0.2时,最优的 ϵ \epsilon ϵ-greedy策略与最优的greedy策略就没有太大关系,转换后两者不一样;当 ϵ = 0.5 \epsilon = 0.5 ϵ=0.5时,得到的最优策略转换为greedy策略后也不再是最优的greedy策略。这说明使用mc ϵ \epsilon ϵ-greedy算法时, ϵ \epsilon ϵ不能太大,技巧是开始时 ϵ \epsilon ϵ较大以保证探索性,最后逐渐减小到 0 0 0,从而得到最优策略。

课程总结

  1. 蒙特卡罗方法引入:课程最开始通过motivation example介绍了蒙特卡罗方法,即无需模型,用数据去估计一个期望(expectation)。
  2. 算法关系:基于蒙特卡罗方法提出了三种算法,这三个算法关系紧密,从最简单的算法逐渐变得复杂,效率也越来越高。
  3. ϵ \epsilon ϵ-Greedy策略性质:通过大量例子说明了 ϵ \epsilon ϵ-greedy策略的一些性质,包括探索性和最优性,以及如何平衡两者以获得更好的策略。

本次课内容庞杂且逻辑性强,希望能对大家理解相关知识有所帮助,简要回顾了课程内容后,期待下次再见。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值