Alpha Zero论文理解笔记

本文是对Alpha Zero论文的学习笔记,详细介绍了如何利用蒙特卡洛树搜索(MCTS)进行自博弈训练策略价值网络,并评估网络性能。通过学习,深入理解了Alpha Zero在无需人类知识的情况下掌握围棋的机制。

结合知乎专栏https://zhuanlan.zhihu.com/p/32089487 对alpha zero论文进行了学习


用MCTS方法进行自博弈得到的棋局训练策略价值网络

• 策略价值网络
○ 是用来描述a list of (action, probability) tuples for each available action and the score of the board state
○ 输入:若干个局部棋面描述4*8*8
○ 输出:(p,v)
○ 网络结构:
公共的3层全卷积网络,分别使用32、64和128个 
3*3的filter,使用ReLu激活函数。然后再分成policy和value两个输出,在policy这一端,先使用4个 1*1
的filter进行降维,再接一个全连接层,使用softmax非线性函数直接输出棋盘上每个位置的落子概率;在value这一端,先使用2个 1*1的filter进行降维,再接一个64个神经元的全连接层,最后再接一个全连接层,使用tanh非线性函数直接输出 
之间的局面评分。

• MCTS
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值