深度学习在棋盘游戏和电脑游戏中的应用
1. 棋盘游戏中的深度学习
1.1 AlphaGo的神经网络
AlphaGo拥有三个经过不同训练的深度神经网络:
- SL网络 :通过监督学习进行训练,用于根据棋盘位置预测人类落子的概率。
- RL网络 :初始使用SL网络的权重,然后通过强化学习进一步训练,从给定位置选择最佳落子。
- V网络 :再次使用监督学习进行训练,学习使用RL网络落子时期望的结果,提供状态值。
1.2 AlphaGo的训练过程
- 策略梯度训练 :网络设置为自对弈,每一步的奖励为0,直到游戏结束,胜利奖励为1,失败奖励为 -1。将最终奖励应用到网络的每一步,使用策略梯度进行训练。为防止过拟合,与随机选择的先前版本网络对弈。
- 监督学习网络 :构建初始监督学习网络,预测人类玩家最可能的落子,减少蒙特卡罗树搜索(MCTS)的搜索广度,提高每次模拟的评估准确性。但运行大型多层神经网络速度慢,不适合蒙特卡罗模拟。
- 价值网络 :创建一个新的监督网络,输出为一个单一节点,表示游戏的预期结果(白胜、黑胜或平局)。损失函数为其输出与强化学习网络结果的均方误差,训练后在训练集和测试集上的均方误差分别为0.226和0.234。
1.3 AlphaGo与李世石的对战
在与李世石的五局比赛中,Alp
超级会员免费看
订阅专栏 解锁全文
784

被折叠的 条评论
为什么被折叠?



