23、实践学习：强化学习

熬夜协会会长

于 2025-11-11 14:47:59 发布

阅读量9

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习与围棋的艺术文章标签：强化学习围棋智能体

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/tcp8optimizer/article/details/155230289

深度学习与围棋的艺术专栏收录该内容

37 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

实践学习：强化学习

1. 引言

很多人阅读了大量关于围棋的书籍，却依旧只是中级业余棋手。以作者为例，他读了十几本由中日韩顶尖职业棋手撰写的围棋书籍，甚至能背诵《围棋基础教程》，但水平仍未达到传奇棋手的高度。原因或许在于实践的不足，一名职业棋手通常要进行上万局的对弈才能获得专业资格。实践能创造知识，而这些知识有时难以直接传达，围棋书籍虽能总结，但其中的微妙之处会在传播中丢失。如果想掌握所学知识，就需要投入相应的实践。

2. 强化学习的概念

对于计算机程序而言，能否通过实践来学习呢？这正是强化学习（Reinforcement Learning，RL）的核心所在。在强化学习中，通过让程序反复尝试一项任务来进行改进。当程序取得良好结果时，对其进行修改以重复这些决策；当结果不佳时，则修改程序以避免这些决策。不过，强化学习并非一蹴而就。它速度较慢，一个围棋机器人可能需要进行数千局的对弈才能有明显的提升，而且训练过程复杂，调试困难。但一旦成功运用这些技术，回报将十分可观，能够构建出运用复杂策略解决各种任务的软件，即便无法清晰描述这些策略。

3. 强化学习的循环

3.1 循环概述

许多算法都遵循强化学习的机制，它们都在一个标准框架内运行。这个框架就是强化学习循环，计算机程序通过反复尝试任务来不断改进。在强化学习的语境中，围棋机器人被称为智能体（Agent），即一个为完成任务而做出决策的程序。

3.2 循环步骤

强化学习的目标是让智能体尽可能高效地完成任务，对于围棋智能体来说，就是要在围棋比赛中获胜。其循环步骤如下：
1. 收集经验 ：

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。