9、蒙特卡罗方法与时序差分学习：从理论到实践

最新推荐文章于 2025-11-27 07:39:16 发布

Light

最新推荐文章于 2025-11-27 07:39:16 发布

阅读量21

点赞数

CC 4.0 BY-SA版权

分类专栏： PyTorch强化学习实战文章标签：蒙特卡罗方法时序差分学习 Epsilon-贪心算法

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Light/article/details/154633242

PyTorch强化学习实战专栏收录该内容

21 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

蒙特卡罗方法与时序差分学习：从理论到实践

一、Epsilon - 贪心算法

Epsilon - 贪心算法在性能上优于贪心搜索方法。它以 (1 - \epsilon) 的概率选择当前最优动作，同时以 (\epsilon) 的概率随机探索其他动作。这里的超参数 (\epsilon) 是探索与利用之间的权衡。当 (\epsilon = 0) 时，算法完全变成贪心算法；当 (\epsilon = 1) 时，每个动作被均匀选择，算法只是进行随机探索。

(\epsilon) 的值需要根据实验进行调整，没有一个通用的值适用于所有实验。一般来说，我们可以从 0.1、0.2 或 0.3 开始尝试。另一种方法是从一个稍大的值（如 0.5 或 0.7）开始，然后随着时间逐渐减小（例如，每一轮衰减 0.999）。这样，策略在开始时会专注于探索不同的动作，随着时间的推移，会倾向于利用好的动作。

在执行完一系列步骤后，对 100,000 轮的结果进行平均并打印获胜概率，代码如下：

print('Winning probability under the optimal policy: {}'.format(n_win_optimal/n_episode))

得到的最优策略下的获胜概率为 0.42436，高于没有使用 Epsilon - 贪心算法时的获胜概率（41.28%）。同时，打印失败概率的代码为：

print('Losing probability under the optimal policy: {}

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。