在强化学习(十八) 基于模拟的搜索与蒙特卡罗树搜索(MCTS)中,我们讨论了MCTS的原理和在棋类中的基本应用。这里我们在前一节MCTS的基础上,讨论下DeepMind的AlphaGo Zero强化学习原理。
本篇主要参考了AlphaGo Zero的论文, AlphaGo Zero综述和AlphaGo Zero Cheat Sheet。
1. AlphaGo Zero模型基础
AlphaGo Zero不需要学习人类的棋谱,通过自我对弈完成棋力提高。主要使用了两个模型,第一个就是我们上一节介绍MCTS树结构,另一个是一个神经网络。MCTS上一篇已经有基本介绍了,对于神经网络,它的输入是当前