Alpha Zero——强化学习的集大成者

最新推荐文章于 2025-04-06 22:09:32 发布

原创

最新推荐文章于 2025-04-06 22:09:32 发布 · 1.6k 阅读

·

14

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#深度学习 #图搜索算法

AlphaZero是一种通用强化学习算法，它通过自我对弈在国际象棋、日本将棋和围棋中取得卓越表现。该算法结合了深度神经网络和蒙特卡洛树搜索（MCTS），在没有专家数据的情况下自我进化。经过短短几小时的训练，AlphaZero就能超越专业棋类程序。其网络结构基于Resnet，并使用MCTS的UCB算法进行高效的搜索。

文章目录

题目：A general reinforcement learning algorithm that masters chess, shogi and Go through self-play

1.概述

该论文是在alphaGO和alpha GO zero基础上提出，在不需要专家数据的前提下采用self-play的方式进行训练，在各类棋类游戏得到的强大性能！

在国际象棋中，AlphaZero训练4小时就超越了世界冠军程序Stockfish；
在日本将棋中，AlphaZero训练2小时就超越了世界冠军程序Elmo。
在围棋中，AlphaZero训练30小时就超越了与李世石对战的AlphaGo。

看具体算法还是看AlphaGo Zero：Mastering the game of Go without human knowledge

2.主要内容

AlphaGo Zero = 启发式搜索 + 强化学习 + 深度神经网络，你中有我，我中有你，互相对抗，不断自我进化。使用深度神经网络的训练作为策略改善，蒙特卡洛搜索树作为策略评价的强化学习算法。

2.1 网络部分

alpha zero的CNN架构其实就是Resnet的堆叠，值得注意是它的输入和输出：
使用的是一个19×19×17

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。