运筹帷幄:围棋高手

走棋网络

监督学习策略网络

通过监督学习的方式训练一个策略网络,模拟人类棋手的风格进行落子
问题:对·每个样本都进行学习,但不是每个样本都是好的落子方案。

阿尔法狗引入强化学习技术,通过自我对弈左右互搏来提升自身棋力

强化学习基本概念

强化学习相比监督学习而言,它所收到的反馈是评估性的(只告诉当前做法是好的还是坏的)而非指导性的(会告诉该做出什么行为来获取更高的收益),所以学习者必须在多次尝试后才能发现那些行为会得到更高的回报

强化学习基本要素

主体:负责作出决策的实体
环境:主体存在与环境中,其行为作用于环境,并接受环境的反馈
主体通过作用于环境后,环境的好坏就可以通过回报反馈给主体

强化学习目的

强化学习的目的就是找到一个最佳的策略,从而使得主体发出一系列的动作后,收到的累积回报最多

强化学习策略网络

使用训练好的监督学习策略网络进行初始化,在通过不断的自我对弈,以最终胜棋为目标,迭代网络参数,从而改进策略来提高自己的获胜概率

阿尔法狗的大局观

引入股指网络,用于增强阿尔法狗对当前局面价值的判断,同时引入蒙特卡罗树搜索算法推演当前局面的发展,帮助阿尔法狗找到更高的落子方案

估值网络

估值网络以棋盘当前局面作为输入,并预测阿尔法狗在当前局面下的胜率

有了估值网络后,阿尔法狗无需对弈到最后即可预测双方胜率,这也使得阿尔法狗在有限的时间内可以推演当前局面更多的可能性,从而找到更好的落子方案。

快速走子网络

为了加速棋局推演的速度,引入快速走子网络(轻量级策略网络,效果不及策略网络,但速度远高于策略网络)在之后进行蒙特克罗树搜索时可以快速模拟更多的未来落子可能性,从而帮助计算机更好地对档期哪局面进行评估。

蒙特卡罗树搜索

阿尔法对大局观还是要从对当前局面的棋局推演中得到
蒙特卡罗树搜索算法是一种通过随机推演建立一棵搜索树的启发式搜索过程
搜索算法从当前给定局面开始推演棋局,分别随机模拟双方落子,若干次等到胜负后,将路径上胜者所选择的落子方案分数提高与此对应将败者的落子方案分数降低,所以之后遇到相同局面时选择胜者方案的概率就会增加。

整合

蒙特卡罗树搜索算法推演棋局时融合各个模块
阿尔法狗面对当前棋局局面时,需要通过蒙特卡罗树搜索算法推演棋局的发展,即模拟对弈双方进行各种各样的落子试探。此时阿尔法狗在试探时每一步不在使用随机算法选择落子,而是根据在每个位置落子的预期收益来选择落子。此预期收益就融和了各个模块的功能,包括通过快速走子网络从当前局面开始多次模拟双方对弈直到分出胜负,策略网络对模拟中每局每个局面落子概率分布的估算,估值网络对模拟中每个局面价值的估算,并且该预期收益将在多次推演棋局发展中不断被更新。

阿尔法元

阿尔法元完全通过自我博弈的强化算法训练自己
阿尔法元在训练开始就没有除规则之外的监督信号,并且只以棋盘当前局面作为网络输入。
阿尔法元在模型上只使用一个神经网络,该神经网络可以同时预测当前局面落子概率分布与局面评估值,而不像阿尔法狗一样分别使用策略网络会和估值网络

阿尔法元的训练

阿尔法元在自我对弈中使用基于蒙特卡罗树搜索算法改进后的策略 π \pi π进行落子,并在自我对弈结束时统计胜负结果,将其作为策略迭代算法中的策略评估的标准,用于回溯更新网络参数。
在回溯更新神经网络参数时,阿尔法元将使得神经网络预测的落子概率分布p更接近蒙特卡罗树搜索得到的落子概率 π \pi π,同时使得神经网络预测的局面胜负结果更接近对弈最终的胜负结果。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值