【强化学习】蒙特卡洛方法

本文介绍了动态规划的局限性,如高复杂度和对状态转移概率的依赖,随后详细阐述了蒙特卡洛方法的基本思想、使用条件和在强化学习中的应用。蒙特卡洛方法通过模拟、抽样和估值来解决未知状态转移概率的问题,适用于可模拟的环境和情节性任务。在强化学习中,蒙特卡洛方法包括策略评估和策略优化,例如MC控制算法。此外,文章还讨论了off-policy MC预测和控制,以及重要度采样的概念。蒙特卡洛方法的优势在于其无需环境模型,但缺点是需要大量探索且结果基于概率。最后,举例展示了如何使用on-policy first-visit MC解决21点游戏问题。

目录

动态规划的局限性

蒙特卡洛方法介绍

蒙特卡洛方法的使用条件

蒙特卡洛方法在强化学习中的基本思路

蒙特卡洛控制

没有Exploring Starts的MC控制

基于重要度采样的off policy预测 

off-policy MC预测算法的增量式实现

off policy MC控制

蒙特卡洛方法的优势/劣势

使用on-policy first visit MC解决21点问题


动态规划的局限性

已知动态规划的价值-状态更新函数如下:

从上面的公式可以看出,动态规划有以下局限:

(1) 每更新一个状态的价值,需要遍历后续所有状态的价值,复杂度较高。

(2)很多时候状态转移概率p(s',r|s,a)未知,这时候我们无法使用动态规划求解。

蒙特卡洛方法介绍

蒙特卡洛并非一个特定的算法,而是一类随机算法的统称,其基本思想是:用事件发生的“频率”来替代事件发生的“概率”,这能解决上面所说的“状态转移概率未知”的问题。通过多次采样,使用该事件发生的频率来替代其发生的概率。

蒙特卡洛方法的特点如下:

(1)可以通过随机采样得到近似结果

(2)采样次数越多,结果越接近于真实值。

蒙特卡洛的整体思路是:模拟->抽样->估值

示例:

如何求\pi的值。一个使用蒙特卡洛方法的经典例子是

假设有一个直径为1的圆的面积为\pi

把这个圆放到一个边长为2的正方形(面积为4)中,圆的面积和正方形的面积比是:\frac{\pi}{4}

如果可以测量出这个比值c,那么\pi=c*4

如何测量c?用飞镖去扎这个正方形。扎了许多次后,用圆内含的小孔数除以正方形含的小孔数可以近似的计算比值c

说明:

模拟——用飞镖去扎这个正方形为一次模拟。

抽样——数圆内含的小孔数和正方形含的小孔数。

估值——比值c=圆内含的小孔数/正方形含的小孔数。

蒙特卡洛方法的使用条件

(1)环境是可模拟的。在实际的应用中,模拟容易实现。相对的,了解环境的完整知识反而比较困难。由于环境可模拟,我们就可以抽样。

(2)只适合情节性任务(episodic tasks)。因为,需要抽样完成的结果,只适合有限步骤的情节性任务。

游戏类都适合用蒙特卡洛方法。

蒙特卡洛方法在强化学习中的基本思路

蒙特卡洛方法的整体思路是:模拟->抽样->估值。

强化学习的目的是得到最优策略。求得最优策略的方法是求v_{\pi}(s)q_{\pi}(s,a)。这是一个求值问题。

结合GPI的思想。

下面是蒙特卡洛方法的一个迭代过程:

一、策略评估迭代

1、探索 - 选择一个状态-动作(s,a)

2、模拟 - 使用当前策略\pi,进行一次模拟,从当前(s,a)到结束,随机产生一段情节(episode)。

3、抽样 - 获得这段情节上的每个状态(s,a)的回报G(s,a),记录G(s,a)到集合Returns(s,a)

二、策略优化 - 优化新的行动价值q(s,a)优化策略\pi(s)

蒙特卡洛控制

经典的策略迭代算法的MC版本,从任意的策略\pi_0开始,交替进行完整的策略评估和策略改进,最终得到最优的策略和动作价值函数。

E表示策略评估,

评论 1
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值