强化学习（五）—— AlphaGo与Alpha Zero

原创

已于 2022-04-04 20:37:14 修改 · 4.3k 阅读

CC 4.0 BY-SA版权

文章标签：

于 2022-03-31 15:50:42 首次发布

本文详细介绍了AlphaGo和AlphaZero的工作原理和技术细节，包括输入编码、训练流程、模仿学习、策略网络训练、价值网络训练及蒙特卡洛树搜索算法等。同时提供了策略网络和状态价值网络的具体实现代码。

1. AlphaGo

在这里插入图片描述

通过Behavior Cloning从人的经验中初始化策略网络的参数，策略网络的结构为：在这里插入图片描述
随机初始化网络参数后，基于人类对弈的落子序列数据，进行模仿学习（分类任务），使用交叉熵作为损失函数进行参数更新：

在这里插入图片描述

两个策略网络进行对弈直到游戏结束。Player V.S. Opponent，Player 使用策略网络最新的参数，Opponent随机选用过去迭代中的网络参数。
得到对弈的序列数据： $s_1,a_1,s_2,a_2,s_3,a_3,...,s_T,a_T$
Player获得的回报为： $u_1=u_2=u_3=u_T(赢了为1，输了为-1)$
近似策略梯度(连加) $g_\theta=\sum_{t=1}^T \frac{\partial log(\pi(\cdot|s_t;\theta))}{\partial\theta}\cdot u_t$
参数更新 $\theta\gets\theta+\beta\cdot g_{\theta}$