Mastering the game of Go with deep neural networks and tree search 中文版来了

最新推荐文章于 2022-07-30 00:17:53 发布

nehemiah666

最新推荐文章于 2022-07-30 00:17:53 发布

阅读量1.9k

点赞数 2

http://pan.baidu.com/s/1hr3kxog

http://download.youkuaiyun.com/detail/nehemiah666/9472669

里面有nature上paper，我翻译的中文版，和录的一个讲述AlphaGo工作原理的视频，是对AlphaGo工作原理的总结。

下面是摘要部分：

对于人工智能来说，围棋一直被视为最具挑战性的经典游戏，这是由于其巨大的搜索空间以及难于评估的棋盘盘面和走子。这里我们介绍了一个新方法：使用价值网络 (value networks )来评估棋盘盘面和使用策略网络 (policy networks )来选择走子。为了训练这些深度神经网络，我们将有监督学习（从人类职业比赛中学习）和增强学习（从自我对抗的比赛中学习）创新地结合在一起。在没有使用任何前瞻搜索的情况下，这些神经网络的水平已经相当于最先进的使用蒙特卡罗树搜索(MCTS：Monte Carlo tree search)的程序，这些程序模拟了成千上万的随机的自我对抗盘局。我们还提出了一种将蒙特卡罗仿真和价值网络以及策略网络结合起来的新搜索算法。使用该搜索算法后，AlphaGo在和其他围棋程序的对弈中，赢了99.8%的盘局，并且以5比0击败了欧洲围棋冠军。这是计算机程序首次在全尺寸的围棋对抗中击败职业围棋选手，这个壮举以前被认为是至少十年以后才会发生。