文章目录
题目:A general reinforcement learning algorithm that masters chess, shogi and Go through self-play
1.概述
该论文是在alphaGO和alpha GO zero基础上提出,在不需要专家数据的前提下采用self-play的方式进行训练,在各类棋类游戏得到的强大性能!
- 在国际象棋中,AlphaZero训练4小时就超越了世界冠军程序Stockfish;
- 在日本将棋中,AlphaZero训练2小时就超越了世界冠军程序Elmo。
- 在围棋中,AlphaZero训练30小时就超越了与李世石对战的AlphaGo。
看具体算法还是看AlphaGo Zero:Mastering the game of Go without human knowledge
2.主要内容
AlphaGo Zero = 启发式搜索 + 强化学习 + 深度神经网络,你中有我,我中有你,互相对抗,不断自我进化。使用深度神经网络的训练作为策略改善,蒙