AlphaGo Zero:自我对弈算法的深度解析
1. AlphaGo Zero中的蒙特卡罗树搜索(MCTS)
在AlphaGo Zero中,为了改进策略,采用了一种无需随机模拟的策略型蒙特卡罗树搜索(MCTS)。为了增加探索性,在根节点的P - UCT值中加入了狄利克雷噪声,确保所有走法都有机会被尝试。在AlphaGo里,MCTS的Cp值为5,非常倾向于探索。而在AlphaGo Zero中,该值取决于学习阶段,在自我对弈过程中会不断增长。
在每次自我对弈迭代中,会进行25000场游戏。每一步走法,MCTS会进行1600次模拟。在为期3天的训练过程中,总共进行了490万场游戏,之后AlphaGo Zero的表现就超过了之前的版本AlphaGo。
MCTS由走法选择和统计信息回溯两个阶段组成,分别对应强化学习中的行为(试验)和学习(误差)。它是强化学习中的重要算法。
2. 移动级自我对弈
移动级自我对弈是第一个自我对弈程序,它通过自我对弈来生成应对走法。不过,移动级规划只是自我对弈的一部分,学习部分同样重要。接下来我们看看AlphaGo Zero是如何实现函数逼近的,这就涉及到第二个级别的自我对弈:示例级自我对弈。
3. 示例级自我对弈
移动级自我对弈为我们创造了一个可以进行应对走法的环境,现在我们需要一种机制从这些行动中学习。AlphaGo Zero遵循演员 - 评论家原则来逼近价值函数和策略函数,它使用一个带有价值头和策略头的单一深度残差神经网络来逼近这些函数,并且策略和价值逼近会融入到MCTS的选择和回溯步骤中。
强化学习需要训练示例来进行学习,这些训练示例在自我对弈的
超级会员免费看
订阅专栏 解锁全文
1426

被折叠的 条评论
为什么被折叠?



