人工智能中的博弈:从AlphaGo到博弈论基础
在人工智能的发展历程中,博弈领域的突破是其重要的里程碑。AlphaGo及其后续版本的出现,以及博弈论的相关理论,都为我们展示了人工智能在策略决策方面的强大能力。
1. AlphaGo技术剖析
AlphaGo学习下棋遵循标准的机器学习过程。首先,它从一组已发布的专业围棋比赛中进行有监督的训练,之后通过强化学习和自我监督学习,进行大量模拟来提升棋艺。
-
核心网络与算法
- 深度卷积神经网络(DCNN) :用于呈现棋盘配置。
- 蒙特卡罗搜索树(MCTS)算法 :结合策略网络和价值网络。策略网络用于确定下一步的走法,价值网络用于预测该走法对赢得比赛的贡献。
-
马尔可夫决策过程(MDP)
AlphaGo使用了马尔可夫链的扩展,即马尔可夫决策过程。策略函数π是从围棋棋盘状态s到相应动作的概率映射π(s)。当MDP与策略网络结合时,每个状态的动作就被确定,MDP成为具有马尔可夫转移矩阵的常规马尔可夫链。其目标是选择一个策略π,使奖励R的总和最大化,奖励总和是时间t乘以折扣因子γ(0 ≤ γ ≤ 1)的t次幂。较低的γ会促使相对即时的行动,而对于策略网络,γ通常接近1,反映了围棋中典型的长远策略。
目标公式为:
[ \max \sum_{t=0}^{\infty} \gamma^t R_{s_t,
超级会员免费看
订阅专栏 解锁全文
745

被折叠的 条评论
为什么被折叠?



