增强式学习：如何使用Q-Learning算法训练围棋机器人

最新推荐文章于 2025-10-28 10:32:36 发布

原创

最新推荐文章于 2025-10-28 10:32:36 发布 · 1.8k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#深度学习 #增强式学习 #Q-Learning

上一节我们构造出如下结构的神经网络：
屏幕快照 2019-07-09 下午6.21.30.png
本节我们看看如何使用该网络训练围棋机器人。我们在标题中提到Q-Learning，它实际上是一种使用上面网络进行训练的算法流程。首先我们先定义执行Q-Learning算法的机器人对象：

class QAgent:
    def  __init(self, model, encoder): 
        #参数model就是我们构造的神经网络
        self.model = model
        self.encoder = encoder  #对棋盘的编码
        self.temperature = 0  #对应epsilong参数
    def  set_temperature(self, temperature):
        self.temperature = temperature  #该参数的值越大，机器人胆子就越大，就越多的进行随机落子
    def set_collector(self, collector):
        #collector包含了机器人对弈时的棋盘数据
        self.collector = collector

在上面代码实现中，参数temperature对应上一章我们说过的epsilong参数，这个参数的值越大，QAgent的随机性就越强.同时代码中的collector根前几节一样，它收集了两个机器人对弈的大量棋盘数据，这些数据将用于执行Q-Learning算法。接着我们看看基于Q-Learning算法的围棋机器人如何选择落子策略：

def  select_move(self, game_state):
        board_tensor = self.encoder.encode(game_state

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

coding 迪斯尼

关注关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

Qlearning算法

AI天才研究院

10-04

1542

Q-learning算法作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming 1. 背景介绍 1.1 问题的由来在计算机科学和人工智能领域，强化学习（Reinforcemen

智能体入门——遗传算法与Qlearning

AI天才研究院

08-07

1738

本文旨在为读者提供遗传算法和Q-learning这两种重要智能体学习算法的全面介绍。我们将深入探讨这些算法的工作原理、实现方法、应用场景以及它们在人工智能和机器学习领域的重要性。本文首先介绍智能体的基本概念，然后分别深入讨论遗传算法和Q-learning的原理和实现。接着，我们将比较这两种算法的特点，并探讨它们的实际应用场景。最后，我们将总结当前研究现状并展望未来发展趋势。智能体（Agent）：能够感知环境并做出决策的实体。

参与评论您还未登录，请先登录后发表或查看评论

增强学习(Reinforcement Learning)

大树先生的博客

09-02

3207

增强学习(Reinforcement Learning) 1. 增强学习基础 Q-learning DQN Double DQN

增强式学习

weixin_34161083的博客

06-04

230

非常好的一个导入例子如图在每一个格子中我们都有四种移动策略（action:U,D,L,R）,但理想总是美好的，现实总是骨干的。有些时候，我们想着的方向并不一定是我们移动的方向，所以我们引入概率。正确移动的概率为0.8，错误移动的概率各为0.1（不允许倒退） MArkov决策过程（MDP）：特性—无需关注过去的事情特性二规则不变状态、奖励、行动、转移（折扣）摩尔...

如何用Katrain提升围棋水平：免费AI围棋训练工具完全指南

热门推荐

MUTOUYIHAO的专栏

09-29

1万+

在之前的讨论中，我们总是给定一个样本x，然后给或者不给label y。之后对样本进行拟合、分类、聚类或者降维等操作。然而对于很多序列决策或者控制问题，很难有这么规则的样本。比如，四足机器人的控制问题，刚开始都不知道应该让其动那条腿，在移动过程中，也不知道怎么让机器人自动找到合适的前进方向。另外如要设计一个下象棋的AI，每走一步实际上也是一个决策过程，虽然对于简单的棋有A*的启发式方法

机器学习：增强式学习Reinforcement learning

uncle_ll的博客

12-18

770

增强学习介绍及action不同的版本

李宏毅机器学习笔记第17周_概述增强式学习（Reinforcement Learning）

peaunt1的博客

08-04

948

Reinforcement Learning

《强化学习周刊》第22期：ICRA 2021-2022强化学习的最新研究与应用

AI_Conf的博客

10-19

558

强化学习作为人工智能领域研究热点之一，其研究进展与成果也引发了众多关注。并且诸多研究成果发表于ICRA 2021-2022学术会议中，为帮助研究与工程人员了解该领域的相关进展和资讯，智源社区结合领域内容，撰写为第22期《强化学习周刊》。本期周刊整理了ICRA 2021-2022中强化学习领域相关的最新论文推荐和新工具等，以飨诸位。周刊采用社区协作的模式产生，欢迎感兴趣的朋友们参与我们的工作，一起来推动强化学习社群的分享、学习和交流活动。可以扫描文末的二维码加入强化学习社区群。本期贡献者：李明，刘青，刘元

深度 Qlearning：神经网络与强化学习的结合

AI天才研究院

07-01

928

深度 Q-learning：神经网络与强化学习的结合作者：禅与计算机程序设计艺术 / Zen and the Art of Computer Programming / TextGenWebUILLM 深度 Q-learnin

增强学习/强化学习综述

chenhepg的博客

05-12

1万+

@创建于：20210512 @修改于：20210512 文章目录1、增强学习概念2.1 增强学习定义2.2 两大特点2、简书：[阿阿阿阿毛](https://www.jianshu.com/u/a18653721b40)3、知乎：[叶强](https://www.zhihu.com/people/qqiang00/posts?page=2)4、优快云：[夏栀的博客](https://blog.youkuaiyun.com/qq_36426650/category_9759833.html)5、博客园：[ 刘建平Pin

Q-Learning代码

10-19

Q-Learning代码，给出使用Q-Learning 的代码。

2021 增强式学习RL 李宏毅

linyuxi_loretta的博客

11-04

1053

最简单的但其实是不正确的版本，作业simple code的版本，通常搜集资料时，通常做多个episode，比如说助教的simple code里跑了5个episode，才搜集到足够的资料。这不是一个好方法，因为学出来的network是一个短视近力的actor，因为每个行为都会影响互动接下来的发展，每个行为并不是独立的。而且存在Reward delay。“牺牲短期利益”，这个版本机器只会学到疯狂开火只有这个行为是被鼓励的。

李宏毅机器学习课程-概述增强式学习PolicyGradient0214

weixin_49747347的博客

02-14

546

B站李宏毅2021春机器学习课程P74 目录 1、如何定义A-不好的方法 2、选择动作之后所有奖励之和 3、Policy Gradient 1、如何定义A-不好的方法这种方法只看短期结果，没有长远目光，真实情况每一次动作都会影响接下来的环境。 2、选择动作之后所有奖励之和太长的结果与最初的相关性会较低。增加折扣因子：只要是正的就会鼓励采取，可能是不好的举措，所以需要标准化，减掉一个...

用Qlearning征服棋盘:从国际象棋到围棋

AI天才研究院

04-30

556

用Q-learning征服棋盘:从国际象棋到围棋 1.背景介绍 1.1 人工智能在棋盘游戏中的应用人工智能在棋盘游戏领域有着悠久的历史。早在1950年,克劳德·香农就提出了"程序化游戏理论",为

使用人类棋手棋盘数据训练围棋机器人，实现数据预处理

tyler_download的专栏

04-19

2726

知己知彼，百战不殆。我们要打造一个能胜过人类的机器人，就必须要让机器人掌握人类的围棋思维模式，因此我们就需要使用人类棋手留下的棋盘数据训练机器人，让它从数据中掌握人类围棋思维存在的模式和套路。幸运的是，我们能够通过围棋服务器拿到很多由人落子后产生的棋盘数据。很多围棋服务器公开了这些数据，这些围棋数据以一种叫Smart Game Format的方式存储，我们可以将其下载下来进行预处理后用于训练我们...

增强学习与强化学习的区别：理解核心概念

AI天才研究院

12-25

630

1.背景介绍强化学习(Reinforcement Learning, RL)和增强学习(Incremental Learning, IL)是两种不同的学习方法，它们在解决问题和处理数据方面存在一些差异。强化学习是一种基于奖励和惩罚的学习方法，通过在环境中执行动作来获取奖励，从而学习最佳的行为。增强学习则是一种在线学习方法，通过在学习过程中动态地更新模型来改进学习策略。在本文中，我们将深入探讨这...

QT象棋练习（5）-走棋

朝歌

03-23

1059

棋盘，棋子画好了，现在应该开始走棋了，走棋，用鼠标点击一个棋子，再点击一个位置，就可以走了。首先就是鼠标事件函数，这里有两个，一个是鼠标释放和鼠标点下去的函数，选择释放的函数。因为在下棋的时候，习惯点击后松开，在要走的位置点击。 //void mousePressEvent(QMouseEvent*); //鼠标点下去的 void mouseReleaseEvent(QMouseEven...

cv_family_z的博客

06-11

3422