目录
使用on-policy first visit MC解决21点问题
动态规划的局限性
已知动态规划的价值-状态更新函数如下:

从上面的公式可以看出,动态规划有以下局限:
(1) 每更新一个状态的价值,需要遍历后续所有状态的价值,复杂度较高。
(2)很多时候状态转移概率未知,这时候我们无法使用动态规划求解。
蒙特卡洛方法介绍
蒙特卡洛并非一个特定的算法,而是一类随机算法的统称,其基本思想是:用事件发生的“频率”来替代事件发生的“概率”,这能解决上面所说的“状态转移概率未知”的问题。通过多次采样,使用该事件发生的频率来替代其发生的概率。
蒙特卡洛方法的特点如下:
(1)可以通过随机采样得到近似结果
(2)采样次数越多,结果越接近于真实值。
蒙特卡洛的整体思路是:模拟->抽样->估值
示例:
如何求的值。一个使用蒙特卡洛方法的经典例子是
假设有一个直径为1的圆的面积为。
把这个圆放到一个边长为2的正方形(面积为4)中,圆的面积和正方形的面积比是:
如果可以测量出这个比值,那么
。
如何测量?用飞镖去扎这个正方形。扎了许多次后,用圆内含的小孔数除以正方形含的小孔数可以近似的计算比值
。
说明:
模拟——用飞镖去扎这个正方形为一次模拟。
抽样——数圆内含的小孔数和正方形含的小孔数。
估值——比值=圆内含的小孔数/正方形含的小孔数。
蒙特卡洛方法的使用条件
(1)环境是可模拟的。在实际的应用中,模拟容易实现。相对的,了解环境的完整知识反而比较困难。由于环境可模拟,我们就可以抽样。
(2)只适合情节性任务(episodic tasks)。因为,需要抽样完成的结果,只适合有限步骤的情节性任务。
游戏类都适合用蒙特卡洛方法。
蒙特卡洛方法在强化学习中的基本思路
蒙特卡洛方法的整体思路是:模拟->抽样->估值。
强化学习的目的是得到最优策略。求得最优策略的方法是求和
。这是一个求值问题。
结合GPI的思想。
下面是蒙特卡洛方法的一个迭代过程:
一、策略评估迭代
1、探索 - 选择一个状态-动作。
2、模拟 - 使用当前策略,进行一次模拟,从当前
到结束,随机产生一段情节(episode)。
3、抽样 - 获得这段情节上的每个状态的回报
,记录
到集合
。
二、策略优化 - 优化新的行动价值优化策略
蒙特卡洛控制
经典的策略迭代算法的MC版本,从任意的策略开始,交替进行完整的策略评估和策略改进,最终得到最优的策略和动作价值函数。

表示策略评估,

本文介绍了动态规划的局限性,如高复杂度和对状态转移概率的依赖,随后详细阐述了蒙特卡洛方法的基本思想、使用条件和在强化学习中的应用。蒙特卡洛方法通过模拟、抽样和估值来解决未知状态转移概率的问题,适用于可模拟的环境和情节性任务。在强化学习中,蒙特卡洛方法包括策略评估和策略优化,例如MC控制算法。此外,文章还讨论了off-policy MC预测和控制,以及重要度采样的概念。蒙特卡洛方法的优势在于其无需环境模型,但缺点是需要大量探索且结果基于概率。最后,举例展示了如何使用on-policy first-visit MC解决21点游戏问题。
最低0.47元/天 解锁文章
3374





