15、人工智能中的博弈：从AlphaGo到博弈论基础

最新推荐文章于 2025-12-12 17:54:27 发布

echo99

最新推荐文章于 2025-12-12 17:54:27 发布

阅读量117

点赞数

CC 4.0 BY-SA版权

分类专栏： AI进化论：从零到奇点文章标签： AlphaGo 博弈论人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/echo99/article/details/152146921

AI进化论：从零到奇点专栏收录该内容

28 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

人工智能中的博弈：从AlphaGo到博弈论基础

在人工智能的发展历程中，博弈领域的突破是其重要的里程碑。AlphaGo及其后续版本的出现，以及博弈论的相关理论，都为我们展示了人工智能在策略决策方面的强大能力。

1. AlphaGo技术剖析

AlphaGo学习下棋遵循标准的机器学习过程。首先，它从一组已发布的专业围棋比赛中进行有监督的训练，之后通过强化学习和自我监督学习，进行大量模拟来提升棋艺。

核心网络与算法
- 深度卷积神经网络（DCNN） ：用于呈现棋盘配置。
- 蒙特卡罗搜索树（MCTS）算法 ：结合策略网络和价值网络。策略网络用于确定下一步的走法，价值网络用于预测该走法对赢得比赛的贡献。
马尔可夫决策过程（MDP）
AlphaGo使用了马尔可夫链的扩展，即马尔可夫决策过程。策略函数π是从围棋棋盘状态s到相应动作的概率映射π(s)。当MDP与策略网络结合时，每个状态的动作就被确定，MDP成为具有马尔可夫转移矩阵的常规马尔可夫链。其目标是选择一个策略π，使奖励R的总和最大化，奖励总和是时间t乘以折扣因子γ（0 ≤ γ ≤ 1）的t次幂。较低的γ会促使相对即时的行动，而对于策略网络，γ通常接近1，反映了围棋中典型的长远策略。

目标公式为：
[ \max \sum_{t=0}^{\infty} \gamma^t R_{s_t,

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。