蒙特卡洛方法

芝士小季

于 2023-12-13 23:05:43 发布

阅读量63

点赞数

CC 4.0 BY-SA版权

分类专栏：动手学强化学习文章标签：机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Demoo26/article/details/134984382

动手学强化学习专栏收录该内容

9 篇文章

订阅专栏

本文探讨了在模型未知的强化学习中，如何利用蒙特卡洛方法来估计值函数和策略，即使没有状态转移概率和奖励函数的明确表达。通过实际episode序列来推断价值，强调了这种方法在处理部分可观测环境中的应用，如围棋对弈中的胜率估算。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

蒙特卡洛方法

模型无关的强化学习

在现实问题中，通常没有明确地给出状态转移 $P_{sa}(s')$ 和奖励函数 $R$
例如，我们仅能观察到部分片段（episodes）

Episode 1： $s0(1)→R(s0)(1)a0(1)s1(1)→R(s1)(1)a1(1)s2(1)→R(s2)(1)a2(1)s3(1)⋯sT(1){s^{(1)}_{0}}\xrightarrow[R(s_{0})^{(1)}]{a^{(1)}_{0}}{s^{(1)}_{1}}\xrightarrow[R(s_{1})^{(1)}]{a^{(1)}_{1}}{s^{(1)}_{2}}\xrightarrow[R(s_{2})^{(1)}]{a^{(1)}_{2}}{s^{(1)}_{3}}\cdots s^{(1)}_{T}$

Episode 2： $s0(2)→R(s0)(2)a0(2)s1(2)→R(s1)(2)a1(2)s2(2)→R(s2)(2)a2(2)s3(2)⋯sT(2){s^{(2)}_{0}}\xrightarrow[R(s_{0})^{(2)}]{a^{(2)}_{0}}{s^{(2)}_{1}}\xrightarrow[R(s_{1})^{(2)}]{a^{(2)}_{1}}{s^{(2)}_{2}}\xrightarrow[R(s_{2})^{(2)}]{a^{(2)}_{2}}{s^{(2)}_{3}}\cdots s^{(2)}_{T}$

模型无关的强化学习直接从经验中学习值 $V (s)$ 和策略 $π\pi$ ，而无需构建马尔科夫决策过程模型（MDP）
通过迭代进行值函数估计和策略优化的方式

值函数估计

在基于模型的强化学习（MDP）中，值函数能够通过动态规划计算获得

$\begin{align} V^{\pi}{(s)}&=\mathbb{E}{[R(s_{0})+\gamma R(s_{1}) + \gamma^{2}R(s_{2})+\cdots|s_{0}=s,\pi]}\\ &= R(s)+\gamma \sum\limits_{s'\in S}{P_{s\pi{(s)}}(s')V^{\pi}(s')} \end{align}$

在模型无关的强化学习中

我们无法直接获得 $P_{sa}$ 和 $R$
但是，我们拥有一系列可以用来估计值函数的经验

Episode 1： $s0(1)→R(s0)(1)a0(1)s1(1)→R(s1)(1)a1(1)s2(1)→R(s2)(1)a2(1)s3(1)⋯sT(1){s^{(1)}_{0}}\xrightarrow[R(s_{0})^{(1)}]{a^{(1)}_{0}}{s^{(1)}_{1}}\xrightarrow[R(s_{1})^{(1)}]{a^{(1)}_{1}}{s^{(1)}_{2}}\xrightarrow[R(s_{2})^{(1)}]{a^{(1)}_{2}}{s^{(1)}_{3}}\cdots s^{(1)}_{T}$

Episode 2： $s0(2)→R(s0)(2)a0(2)s1(2)→R(s1)(2)a1(2)s2(2)→R(s2)(2)a2(2)s3(2)⋯sT(2){s^{(2)}_{0}}\xrightarrow[R(s_{0})^{(2)}]{a^{(2)}_{0}}{s^{(2)}_{1}}\xrightarrow[R(s_{1})^{(2)}]{a^{(2)}_{1}}{s^{(2)}_{2}}\xrightarrow[R(s_{2})^{(2)}]{a^{(2)}_{2}}{s^{(2)}_{3}}\cdots s^{(2)}_{T}$

蒙特卡洛方法

蒙特卡洛方法（Monte-Carlo methods）是一类广泛的计算方法
依赖于重复随机抽样来获得数值结果

例如，计算圆的面积

在这里插入图片描述

围棋对弈：估计当前状态下的胜率

在这里插入图片描述

博客等级

码龄5年

14
原创

42
点赞

63
收藏

43
粉丝

关注

私信

热门文章

分类专栏

动手学强化学习 9篇

上一篇：: 基于模型的强化学习

下一篇：: 蒙特卡洛价值预测

最新评论

CentOS包管理器yum和rpm
优快云-Ada助手: 非常感谢您分享关于CentOS包管理器yum和rpm的知识，这篇博客内容非常实用。希望您能继续保持创作的热情，分享更多关于Linux系统的知识。或许下一步可以深入探讨一些高级的包管理技巧，或者是与其他Linux发行版的包管理器进行比较分析，这样会更加丰富您的博客内容。期待您的下一篇好文！
时间同步服务 Chrony 和 NTPd
优快云-Ada助手: 恭喜您撰写了第13篇博客！时间同步服务 Chrony 和 NTPd 的内容非常有价值，对于需要了解时间同步的读者来说肯定是一篇很有帮助的文章。接下来，我建议您可以考虑撰写一些实际应用场景下的时间同步问题，或者是和其他系统服务的集成使用方法，这样能够让读者更好地理解和应用这些时间同步服务。期待您的下一篇文章！
Docker Desktop - Unexpected WSL error
优快云-Ada助手: 恭喜您发布了第14篇博客！对于Docker Desktop出现意外的WSL错误，您的经验分享对读者们来说肯定是非常有帮助的。建议您在下一篇博客中可以尝试深入分析WSL错误的解决方法，或者分享更多关于Docker Desktop的使用技巧和注意事项。期待您的更多精彩内容！祝您创作顺利！
NFS Network File System 网络文件系统
优快云-Ada助手: 恭喜你撰写了关于NFS网络文件系统的博客！你对这一主题的深入了解让我印象深刻。我希望你能继续分享关于网络系统的知识，并且建议你可以考虑添加一些实际应用案例或者是与其他文件系统的对比分析，这样可以让读者更好地理解NFS的优势和特点。期待你更多的精彩内容！
使用Nginx搭建CloudStack本地镜像站
优快云-Ada助手: 恭喜您在博客上发布了第10篇文章！使用Nginx搭建CloudStack本地镜像站这个主题很有深度，对读者来说肯定是一次很棒的学习体验。接下来，希望您能继续分享更多关于Nginx和CloudStack的实践经验，或者可以考虑探讨一些相关的技术案例，让读者更好地理解和应用这些知识。期待您的下一篇作品！

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。