20、AlphaGo Zero：自我对弈算法的深度解析

最新推荐文章于 2025-11-08 09:48:46 发布

fern8

最新推荐文章于 2025-11-08 09:48:46 发布

阅读量91

点赞数

CC 4.0 BY-SA版权

分类专栏：深度强化学习：从理论到实践文章标签： AlphaGo Zero 自我对弈蒙特卡罗树搜索

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/fern8/article/details/151034319

深度强化学习：从理论到实践专栏收录该内容

57 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

AlphaGo Zero：自我对弈算法的深度解析

1. AlphaGo Zero中的蒙特卡罗树搜索（MCTS）

在AlphaGo Zero中，为了改进策略，采用了一种无需随机模拟的策略型蒙特卡罗树搜索（MCTS）。为了增加探索性，在根节点的P - UCT值中加入了狄利克雷噪声，确保所有走法都有机会被尝试。在AlphaGo里，MCTS的Cp值为5，非常倾向于探索。而在AlphaGo Zero中，该值取决于学习阶段，在自我对弈过程中会不断增长。

在每次自我对弈迭代中，会进行25000场游戏。每一步走法，MCTS会进行1600次模拟。在为期3天的训练过程中，总共进行了490万场游戏，之后AlphaGo Zero的表现就超过了之前的版本AlphaGo。

MCTS由走法选择和统计信息回溯两个阶段组成，分别对应强化学习中的行为（试验）和学习（误差）。它是强化学习中的重要算法。

2. 移动级自我对弈

移动级自我对弈是第一个自我对弈程序，它通过自我对弈来生成应对走法。不过，移动级规划只是自我对弈的一部分，学习部分同样重要。接下来我们看看AlphaGo Zero是如何实现函数逼近的，这就涉及到第二个级别的自我对弈：示例级自我对弈。

3. 示例级自我对弈

移动级自我对弈为我们创造了一个可以进行应对走法的环境，现在我们需要一种机制从这些行动中学习。AlphaGo Zero遵循演员 - 评论家原则来逼近价值函数和策略函数，它使用一个带有价值头和策略头的单一深度残差神经网络来逼近这些函数，并且策略和价值逼近会融入到MCTS的选择和回溯步骤中。

强化学习需要训练示例来进行学习，这些训练示例在自我对弈的

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。