大道至简——AlphaGo Zero的减法生存

AlphaGo主要包括四个部分:策略网络、价值网络、快速走子网络、蒙特卡罗树搜索,其中包含三个神经网络需要KGS专家棋谱数据集和数月训练时间。

AlphaGo Zero在上述基础上降低神经网络结构复杂性,将原先两个独立结构的策略网络和价值网络合为一体并舍弃了快速走子网络,形成一个共享神经网络,在该共享神经网络中,从输入层到中间层的权重是完全共享的,最后的输出阶段分为策略函数输出和价值函数输出。此外,与AlphaGo将快速走子网络替换随机模拟不同的是,AlphaGo Zero将神经网络得到的结果替换为随机模拟,从而在提升学习速率的同时,增强了神经网络估值的准确性。


先简单回顾一下AlphaGo的三个神经网络的结构。


策略网络学习的对象是利用围棋知识从当前盘面中提取的多个特征矩阵, 这其中包括棋盘各点上的棋子颜色、现在各点气的情况、所有合法点的位置等等,除此之外每个盘面都有一个标示,这个标示标记了该盘面下一步棋手是如何落子的在训练过程中,训练者建立好13层的策略网络模型之后,将特征矩阵作为输入投入到计算中,经过每一层的计算最终得到程序预测的该盘面下一步走棋的位置,在这之后程

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值