11、使用Q学习算法打造自我提升的游戏AI

使用Q学习算法打造自我提升的游戏AI

在策略游戏如国际象棋或围棋中,评论员常说“黑方此时远远落后”或“到目前为止局势对白方略有利”,但这里“领先”或“落后”的评判并非像篮球比赛那样有实时比分可参考,而是基于棋盘位置对某一方是否有利的判断。本文将介绍如何训练计算机游戏玩家做出类似判断,主要聚焦于Q学习算法,它能让计算机像人类一样通过大量游戏学习。

1. Q学习算法基础
  • 动作价值函数 :假设存在一个函数能告知执行某一特定动作后获胜的概率,这个函数就是动作价值函数。在游戏中,若有此函数,只需每回合选择价值最高的动作即可。然而,如何得到这样的动作价值函数是关键问题。
  • Q学习的概念 :Q学习是一种通过强化学习训练动作价值函数的技术。虽然无法得知围棋中所有动作的真实动作价值函数(因为要遍历整个游戏树的可能性几乎是无穷的),但可以通过自我对弈迭代改进动作价值函数的估计。随着估计越来越准确,依赖该估计的游戏机器人也会变得更强。
  • Q函数表示 :传统上,用Q(s, a)表示动作价值函数,其中s代表智能体面临的状态(如棋盘位置),a代表智能体考虑的动作(如下一步可能的落子)。本文主要关注深度Q学习,使用神经网络来估计Q函数,但大多数原理也适用于经典Q学习(用简单表格近似Q函数)。
  • 与策略学习的对比 :之前学习的强化学习是直接学习策略(选择动作的规则),Q学习的结构与之类似,都是让智能体自我对弈,记录决策和游戏结果,然后根据结果更新行为。但Q学习在游戏中做出决策和根据结果更新行为的方式与策
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值