AlphaGo主要包括四个部分:策略网络、价值网络、快速走子网络、蒙特卡罗树搜索,其中包含三个神经网络需要KGS专家棋谱数据集和数月训练时间。
AlphaGo Zero在上述基础上降低神经网络结构复杂性,将原先两个独立结构的策略网络和价值网络合为一体并舍弃了快速走子网络,形成一个共享神经网络,在该共享神经网络中,从输入层到中间层的权重是完全共享的,最后的输出阶段分为策略函数输出和价值函数输出。此外,与AlphaGo将快速走子网络替换随机模拟不同的是,AlphaGo Zero将神经网络得到的结果替换为随机模拟,从而在提升学习速率的同时,增强了神经网络估值的准确性。
先简单回顾一下AlphaGo的三个神经网络的结构。
策略网络学习的对象是利用围棋知识从当前盘面中提取的多个特征矩阵, 这其中包括棋盘各点上的棋子颜色、现在各点气的情况、所有合法点的位置等等,除此之外每个盘面都有一个标示,这个标示标记了该盘面下一步棋手是如何落子的。在训练过程中,训练者建立好13层的策略网络模型之后,将特征矩阵作为输入投入到计算中,经过每一层的计算最终得到程序预测的该盘面下一步走棋的位置,在这之后程