Alpha系列论文笔记（二） AlphaGo Zero

最新推荐文章于 2025-04-07 10:43:29 发布

YoYoDelphine

最新推荐文章于 2025-04-07 10:43:29 发布

阅读量1.7k

点赞数 2

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：深度学习强化学习

本文链接：https://blog.youkuaiyun.com/YoYoDelphine/article/details/85159995

本文介绍了AlphaGo Zero的改进，它摒弃了人类专家数据，仅使用自对弈强化学习进行训练。AlphaGo Zero采用单一神经网络，结合策略网络和估值网络功能，并简化了树搜索算法。在MCTS过程中，神经网络与搜索算法相互提升，以优化动作选择和估值。通过自我博弈和梯度下降优化网络参数，不断提升游戏表现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1. 背景

通过系列一对Alpha的介绍，我们已经知道了AlphaGo的大致模型内容。在2017年，论文¹又基于AlphaGo提出了一个新模型AlphaGo Zero。新模型和AlphaGo的主要区别就在于，完全没有应用人类对弈数据。在AlphaGo中，人类对弈数据主要在快速策略网络和监督学习策略网络。

在论文中提到，应用人类专家数据的缺点主要有两部分：1. 很难获取可靠的专家数据；2. 系统的表现会受限于人类专家的水平。缺点1也可以被理解为围棋中人类对弈数据有赢方也有坏棋，输方也有好棋，数据好坏不是很可靠。

AlphaGo Zero 的创新点主要有四部分：

应用自对弈强化学习进行训练，摒弃所有人类专家数据；
不应用任何除棋盘数据外的任意其他数据；
应用单个神经网络，而不是像AlphaGo那样分为策略网络和估值网络；
简化了树搜索算法，不再需要应用快速策略来完整模拟棋局。

通过这些，AlphaGo Zero实现了更快速和精确的结果。

2. 方法

AlphaGo Zero只含有一个深度神经网络 $f_\theta$ 。该网络将当前棋盘数据（即 $19 \times 19$ 的棋盘特征）以及历史棋盘数据作为输入，然后输出动作概率分布和一个价值 $(p,v)=f_\theta(s)$ 。p是一个动作概率向量，代表了选每个动作的概率， $p_a=Pr(a|s)$ 。价值v是一个标量，估计了当前玩家在状态s可以获胜的概率。这个网络结合了策略网络和估值网络。