什么是蒙特卡洛学习,时序差分算法

香菜+

已于 2024-04-08 09:26:52 修改

阅读量1.4k

点赞数 3

CC 4.0 BY-SA版权

分类专栏： AI深度学习文章标签：学习强化学习深度学习 pytorch

于 2023-01-03 17:22:11 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/perfect2011/article/details/128533139

AI深度学习专栏收录该内容

20 篇文章 ¥99.90 ¥299.90

订阅专栏

本文介绍了蒙特卡洛方法和时序差分算法在强化学习中的应用。蒙特卡洛学习依赖大量样本的平均回报来估算状态值，而时序差分算法则结合了蒙特卡洛和动态规划思想，允许在每个步骤后即时更新状态值，提高了学习效率。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在学习的过程中经常会看到蒙卡特洛和时序差分算法，到底这两个是指什么，今天稍微整理下，开始吧。

1.1 蒙卡特洛方法

蒙特卡罗方法又叫做统计模拟方法，它使用随机数(或伪随机数)来解决计算问题。

比如上图，矩形的面积我们可以轻松得到，但是对于阴影部分的面积，我们积分是比较困难的。所以为了计算阴影部分的面积，我们可以在矩形上均匀地撒豆子，然后统计在阴影部分的豆子数占总的豆子数的比例，就可以估算出阴影部分的面积了。

1.2 蒙卡特洛学习

蒙特卡罗方法的特征是采样，通过多次采样，再计算这些样本中状态的状态值的平均值，由大数定律可以知道，当样本的数目非常大时，平均值非常接近期望值。

完整的状态序列(complete episode):指从某一个状态开始,个体与环境交互直到终止状态的奖励为止.完整的状态序列不要求起始状态一定是某一个特定的状态,但是要求个体最终进入环境认可的某一个终止状态.

蒙特卡洛强化学习有如下

了解本专栏

评论 4

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

香菜+ 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。