9、实践学习：强化学习入门

异步汪仔

于 2025-11-18 11:35:31 发布

阅读量16

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习征服围棋文章标签：强化学习围棋AI 自对弈

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/d3e4f/article/details/155229953

深度学习征服围棋专栏收录该内容

16 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

实践学习：强化学习入门

在学习围棋时，即便阅读了大量专业棋手撰写的书籍，我们可能仍只是中级业余水平。这是因为成为顶尖棋手，实践至关重要，大量的对局才能积累难以言传的知识。计算机也能通过实践学习，这就是强化学习的魅力所在。

1. 强化学习循环

强化学习是通过让程序反复尝试任务来改进程序的方法。当程序取得好结果时，修改程序以重复这些决策；取得坏结果时，则避免这些决策。这一过程通过特定的算法自动完成，无需每次都编写新代码。

强化学习的循环主要包括以下步骤：
1. 收集经验 ：让Go机器人进行多局自对弈，记录每一步和最终结果，这些记录就是经验数据。
2. 训练：根据自对弈中的表现更新机器人的行为，目标是让它重复获胜游戏中的决策，避免失败游戏中的决策。
3. 评估：通过让机器人进行更多对局来评估其进展，可以与之前的版本对战，也可以与其他AI或人类玩家对战。

这个循环可以无限重复，我们可以将其拆分为多个脚本实现。在这个过程中，Go机器人被称为“智能体”，其目标是尽可能有效地完成任务，比如在围棋中获胜。

graph LR
    A[收集经验] --> B[训练]
    B --> C[评估]
    C --> A

2. 经验的构成

在强化学习中，经验数据包含状态、动作和奖励三个部分。在游戏场景中，我们可以将经验划分为多个独立的游戏，即“回合”。每个回合有明确的结

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。