AlphaGo Zero:将树搜索与强化学习相结合
在DeepMind公布了第二代AlphaGo(代号为Master)后,全球的围棋爱好者都对其令人震惊的棋风进行了仔细研究。Master的棋局中充满了令人惊喜的新招。尽管Master是基于人类棋局进行引导学习的,但通过强化学习不断改进,使其能够发现人类未曾使用过的新走法。
这就引出了一个明显的问题:如果AlphaGo完全不依赖人类棋局,而是完全通过强化学习进行学习,它能否达到超人类水平,还是会陷入初学者的水平?它会重新发现人类大师的棋路模式,还是会以一种难以理解的全新风格下棋?2017年AlphaGo Zero(AGZ)的发布回答了所有这些问题。
AlphaGo Zero的特点
AlphaGo Zero基于一个改进的强化学习系统构建,它从零开始进行自我训练,不依赖任何人类棋局的输入。尽管它最初的棋局表现比任何人类初学者都要差,但AGZ稳步提升,迅速超越了之前的所有版本的AlphaGo。
最令人惊讶的是,AlphaGo Zero能够以更简单的方式取得更好的效果。在很多方面,AGZ比最初的AlphaGo简单得多。它不再需要手工设计特征平面,不再依赖人类的棋局记录,也不再使用蒙特卡罗模拟。与最初的AlphaGo使用两个神经网络和三个训练过程不同,AlphaGo Zero只使用一个神经网络和一个训练过程。
然而,AlphaGo Zero却比最初的AlphaGo更强大,这是如何做到的呢?
- 大规模神经网络 :AGZ使用了一个真正庞大的神经网络。其最强版本运行在一个容量大致相当于80个卷积层的网络上,是最初AlphaGo网络规模的四倍多。
-
超级会员免费看
订阅专栏 解锁全文
781

被折叠的 条评论
为什么被折叠?



