15、人工智能中的博弈:从AlphaGo到博弈论基础

人工智能中的博弈:从AlphaGo到博弈论基础

在人工智能的发展历程中,博弈领域的突破是其重要的里程碑。AlphaGo及其后续版本的出现,以及博弈论的相关理论,都为我们展示了人工智能在策略决策方面的强大能力。

1. AlphaGo技术剖析

AlphaGo学习下棋遵循标准的机器学习过程。首先,它从一组已发布的专业围棋比赛中进行有监督的训练,之后通过强化学习和自我监督学习,进行大量模拟来提升棋艺。

  • 核心网络与算法

    • 深度卷积神经网络(DCNN) :用于呈现棋盘配置。
    • 蒙特卡罗搜索树(MCTS)算法 :结合策略网络和价值网络。策略网络用于确定下一步的走法,价值网络用于预测该走法对赢得比赛的贡献。
  • 马尔可夫决策过程(MDP)
    AlphaGo使用了马尔可夫链的扩展,即马尔可夫决策过程。策略函数π是从围棋棋盘状态s到相应动作的概率映射π(s)。当MDP与策略网络结合时,每个状态的动作就被确定,MDP成为具有马尔可夫转移矩阵的常规马尔可夫链。其目标是选择一个策略π,使奖励R的总和最大化,奖励总和是时间t乘以折扣因子γ(0 ≤ γ ≤ 1)的t次幂。较低的γ会促使相对即时的行动,而对于策略网络,γ通常接近1,反映了围棋中典型的长远策略。

目标公式为:
[ \max \sum_{t=0}^{\infty} \gamma^t R_{s_t,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值