24、游戏中的创造力、知识发现与多游戏玩法探索

游戏中的创造力、知识发现与多游戏玩法探索

在游戏领域,智能系统的发展致力于发现新的游戏特征和实现多游戏玩法。下面将介绍相关的系统和方法。

自发特征发现——Blondie

Blondie24(也称为Anaconda)是游戏中自发特征发现的著名例子。它得名于其“蛇形”的玩法,在许多获胜的游戏中,它会封锁对手,迫使对手做出弱势的移动。在其输入数据和进化过程中,从未明确考虑过移动性的概念,但系统在进化过程中“发明”了移动性的重要性。这部分归因于手工设计的输入到隐藏层连接的拓扑结构,而第一层隐藏层中单个神经元覆盖的棋盘子部分之间的相互空间关系,是通过进化发现的。

2005年,Chong等人将类似Blondie的方法应用于奥赛罗棋。他们基本遵循了Chellapilla和Fogel的方法,并根据游戏的特点进行了调整。观察到了与西洋跳棋中类似的关键游戏特征的自发发现效果。总体结论是,以Blondie为代表的协同进化方法能够培养出具有物质优势感和位置细微差别的玩家。不过,掌握移动性策略是一项更具挑战性的学习任务,但经过1000代的进化,一些个体能够发现移动性的重要性,并将物质、位置和移动性这三个方面结合成一个统一的评估系统。

刻意知识发现

以下介绍几种刻意进行知识发现的系统:
- Morph :Robert Levinson的Morph实验在国际象棋的知识发现方面有有趣的观察。Morph的设计理念是计算创造力应是过去经验的独特且有利的组合,符合“旧观念的新颖组合”观点。该系统实现了基于模式的学习,模式的权重通过TD(λ)方法结合模拟退火进行修改(模式的个体学习率随着模式更新频率的增加而降低)。Morph学习的模式与人类的国际象棋知识一致,能够在一定水平上进行开局,尽管没有明确提供开局阶段发展或控制棋盘中心的重要性信息。它的一些走法可以被认为是有创意的,尤其是考虑到其浅层的1层搜索。例如“通过移除防守者赢得棋子”“牺牲一个兵或棋子以实现强大的攻击然后重新获得物质”,甚至“在劣势位置下争取将对手的国王将死而不是被动防守”。然而,Morph的一个弱点是随着模式数量的增加,可扩展性较差,因为缺乏有效的选择机制。尽管其实力远不如GNU Chess,但它仅进行1层搜索就能击败人类新手。
- Zenith :Fawcett和Utgoff的Zenith系统提出了一种通用的游戏特征发现方法。该系统最初配备了要解决的问题的规范,能够自主生成各种与问题相关的新特征。它从一组预定义的面向目标的特征(可能只包括游戏目标这一个元素)开始,应用四种类型的特征转换:分解、目标回归、抽象和专业化。

转换类型 说明 示例(奥赛罗棋)
分解 将一个特征分解为多个子特征 玩家获胜条件可分解为计算自己和对手的棋子数量
目标回归 通过领域运算符对现有特征进行回归 验证移动后玩家拥有的棋子数量
抽象 跳过具体细节以简化特征 简化特征以降低验证成本
专业化 寻找特征不变量 创建简化特征以替代昂贵的条件测试

特征生成过程与概念学习器相结合,负责选择用于评估函数的最优特征集(标记为活跃特征),其余特征标记为非活跃特征,但可能在以后被纳入评估函数。将该系统应用于奥赛罗棋时,包括九种类型的转换(四种分解、三种专业化、一种抽象和一种目标回归)。系统以单个特征“黑方获胜”初始化,通过迭代和选择性地应用这些转换,发现了一些高级人类玩家使用的著名位置游戏特征,如X方块和C方块、稳定和半稳定的棋子,以及一些移动性特征。更重要的是,通过多次转换过程,Zenith还发现了一个全新的、以前未发表的游戏特征,称为未来移动性,与下一状态中可用的移动有关。然而,一些相关的游戏特征无法通过该系统的迭代转换过程发现。Zenith的主要优点是其特征生成机制的通用性,适用于广泛的游戏类型。

graph LR
    A[初始特征集] --> B[分解]
    A --> C[目标回归]
    A --> D[抽象]
    A --> E[专业化]
    B --> F[新特征集]
    C --> F
    D --> F
    E --> F
    F --> G[概念学习器]
    G --> H[活跃特征]
    G --> I[非活跃特征]
  • 奥赛罗棋中的策略发现 :Moriarty和Miikkulainen针对奥赛罗棋的方法是另一个游戏中创造性学习的例子。他们实施了一种专门设计的协同进化方法,旨在发现针对特定类型对手的合适玩法策略。在初始阶段,当与随机玩家训练时,系统发现了位置策略的重要性,类似于新手人类奥赛罗玩家。在随后与更具挑战性的alpha - beta玩家的训练中,系统的策略逐渐发展并包含了高级的移动性元素。进化网络发现的移动性特征对于高水平游戏是不可或缺的,并且通常是新手人类玩家难以掌握的。
  • 存档游戏记录分析 :Miwa、Yokoyama和Chikayama提出了一种新的生成用于评估函数的游戏特征的方法。这些特征是由预定义的原始/基本特征通过手动或自动方式选择后组合而成的。在应用于奥赛罗棋时,定义了192个基本特征,每个特征对应棋盘上的一个特定方格,代表三种可能的情况:方格被黑棋占据、被白棋占据或为空。这些基本特征的组合构成了一个游戏特征(也称为模式)。如果定义模式的所有基本特征都出现在给定的棋盘位置中,则认为该模式存在。

生成游戏特征的训练数据集由200,000个游戏位置组成,测试集包含超过900,000个位置。所有训练示例都从游戏服务器上存档的游戏记录中提取。每个位置包含60个棋子,并标记了黑方玩家的游戏结果。标记是基于搜索到游戏结束来定义的。基于基本特征构建的复杂特征根据其在训练游戏中的出现频率和提供的条件互信息进行选择。频繁特征被定义为在训练集中至少出现预定义次数的特征。为了减轻计算负担,根据某种相似性度量将相似的特征(模式)合并为一个特征。进一步的模式选择依赖于使用CMIM(条件互信息最大化)方法,最大化新选择模式相对于已选择模式的条件互信息。在实验评估中,该方法选择了数千个游戏特征,并在测试集的胜负位置分类中达到了77.2%的准确率。这一结果与直接使用基本特征的三个分类器进行了比较,朴素贝叶斯分类器的准确率为73.9%,使用RPROP方法训练的多层感知器为75.2%,线性判别分类器为73.4%。

以上这些系统都能够从训练数据中发现系统以前未知的新游戏特征。一些方法的特征发现是刻意设计的学习过程的结果,明确专注于创建相关的游戏特征;而在其他方法中,游戏特征是在学习过程中“无意”发展起来的,例如作为基于神经网络的评估函数权重空间中的分布式模式。尽管这些系统中有一些是智能游戏领域的著名里程碑成就,但它们距离真正的创造力还有很大差距。除了TD - Gammon发明的新开局思路外,这些系统发现的游戏特征或游戏属性都不能被认为是具有启发性的。目前,开发创造性游戏系统的成就仍不尽如人意。最终目标是在足够复杂的智力游戏中自主发现评估函数的所有相关组件,并能够对其进行分离和解释。

多游戏玩法

人工智能和计算智能研究在游戏领域的一个终极目标是开发一种通用的游戏代理,只要知道游戏规则,就能玩几乎任何游戏。实现这一目标需要设计通用的学习和推理方法,抽象出特定游戏的特点。由于可能的游戏种类繁多(理论上有无限多种),且游戏设备(棋盘、牌组、各种移动棋子、不同目标等)各不相同,这一任务极具挑战性。目前,虽然总体目标尚未实现,但已经取得了一些进展。

在20世纪90年代初,多游戏玩法成为热门话题,一些著名的方法和系统应运而生。为了使问题易于处理,这些早期尝试通常局限于特定类型的游戏,通常是两人、完全信息、零和、确定性的游戏。该领域的大多数方法依赖于符号、逻辑的游戏表示,源于传统人工智能的主流。而与计算智能相关的方法相对较少。以下介绍两个相关系统:
- SAL :Michael Gherrity的SAL(搜索与学习)系统是最早广为人知的基于计算智能的通用学习代理之一,能够学习任何两人、完全信息、确定性的棋盘游戏。SAL由一个内核和一个特定游戏模块组成。内核应用TD学习结合神经网络的反向传播算法来学习给定游戏的评估函数,并且该内核与游戏无关,对于不同的游戏保持不变。特定游戏模块表示任何特定游戏的有效移动规则。系统仅使用2层搜索,并由Gherrity适当修改的一致性搜索方法支持。

SAL为每个玩家生成一个评估函数,允许学习非对称游戏或在对称游戏中引入不对称性。两个评估函数都表示为单隐藏层的多层感知器。当前游戏情况由一些通用定义的二进制特征描述,包括基于棋盘位置的位置特征(例如每个方格上的棋子类型、每种类型的棋子数量等)、基于最后一步移动的非位置特征(例如移动的棋子类型、捕获的棋子类型)和基于规则的特征(例如可能丢失的棋子、可能丢失的方格、可能的游戏胜利等)。由于所有特征都是二进制的,特别是在棋子类型多样的情况下,特征数量可能相当可观。输入层的大小取决于为游戏生成的游戏特征数量,隐藏层的大小任意选择为输入大小的10%。游戏中的每一步移动代表一个训练示例,输出的目标值表示下一个棋盘位置的评估,通过TD(λ)方法计算。神经网络使用离线反向传播算法进行训练,即在游戏结束后进行。

SAL的游戏学习速度受到缓慢学习的严重阻碍。例如,它需要20000局游戏才能学会玩井字棋。在四子连珠游戏中,SAL需要100000局游戏才能在训练程序上达到约80%的胜率(训练程序的实力细节未知),使用221个游戏特征。在更严肃的学习国际象棋的尝试中,SAL与GNU Chess进行了4200局游戏,其中8局平局,其余均失败。在实验中,GNU Chess被设置为在一秒内做出一步移动,大约相当于1500 - 1600的ELO评级。SAL使用1031个输入特征,平均进行4层深度的搜索。对与GNU Chess的游戏分析表明,SAL的学习过程极其缓慢,但从最初的随机玩法到更有组织的玩法有了稳定的进展。一个表现是SAL在被将死之前的平均游戏步数从初始阶段的约15步增加到实验结束时的约30步。目前尚不清楚SAL是否能够在合理的时间内学会以不错的水平玩国际象棋(或其他复杂游戏),但答案可能是否定的。
- Hoyle :Susan Epstein设计的Hoyle系统代表了另一种有趣的与游戏无关的学习方法。Hoyle能够学习任何在有限棋盘上定义的两人、确定性、完全信息的游戏,只需要知道游戏规则。它使用浅层搜索,最多2层。该系统采用了课程和实践训练方案,即与专家进行游戏(课程)和基于知识的自我游戏(实践)交替进行。

Hoyle的基本思想是使用一组与游戏无关的顾问,每个顾问专注于游戏玩法的一个狭窄、特定的方面(例如物质优势、寻找获胜移动或移动序列等)。每个顾问可以推荐一些移动,并且所有顾问都可以从其专业角度对这些建议进行评论。顾问分为三层:
- 第一层顾问依赖于浅层搜索,专注于对单个移动提供完美的意见,建议选择或避免某些移动。例如,胜利顾问要求立即获胜的移动,而悲伤顾问专注于避免立即失败的移动。
- 第二层顾问倡导特定的游戏计划,即一系列导致实现特定目标的移动。
- 第三层顾问根据其在特定关注领域的启发式评估,对特定移动进行投票(赞成或反对)。第一层和第二层的顾问依次做出决策,如果其中任何一个能够选择下一步移动,它就会这样做,并且该决策不能被后续顾问取消。最后一层的顾问使用简单的加权算术投票方案并行做出决策。

Hoyle的决策过程对分配给第三层顾问的权重选择非常敏感。这些权重使用PWL(概率权重学习)算法进行学习。PWL在与专家教师完成每一局游戏后运行,并根据顾问在刚刚完成的比赛中表现出的游戏专业知识和游戏知识(由专家的移动反映),调整每个顾问的权重。分析专家轮到移动的所有游戏状态,根据支持或反对顾问对记录的专家移动的评论进行部分评估,然后进行顾问权重的累积调整。因此,PWL学习的每个权重代表顾问意见正确的概率。顾问的多样性在学习新游戏中起着至关重要的作用。每个顾问根据其个人优先级从玩过的游戏中学习模式。一个顾问可能专注于开局移动模式,而另一个可能专注于与强大获胜移动相关的模式等。除了顾问可以从游戏分析中获得的特定游戏知识外,Hoyle还预先配备了一些关于两人确定性游戏领域的一般知识。Hoyle可能是第一个被证实能够学习多种游戏的人工智能系统,其有效性在18种两人棋盘游戏中得到了证明,包括井字棋、反井字棋和九子棋。

综上所述,游戏领域的智能系统在特征发现和多游戏玩法方面取得了一定的进展,但仍有很大的提升空间,未来需要进一步探索和研究,以实现更强大、更具创造性的游戏智能。

游戏中的创造力、知识发现与多游戏玩法探索

系统对比与分析

为了更清晰地了解上述各个系统的特点,下面对它们进行详细的对比分析。

系统名称 适用游戏类型 特征发现方式 学习机制 主要优势 主要不足
Blondie 如西洋跳棋、奥赛罗棋等 自发特征发现 协同进化 能“发明”重要特征,如移动性 未明确考虑某些关键概念,掌握移动性策略有挑战
Morph 国际象棋 刻意知识发现,基于模式学习 TD(λ)方法结合模拟退火 学习模式符合人类知识,有创意走法 模式数量扩展性差
Zenith 多种游戏 刻意知识发现,特征转换 特征生成与概念学习器结合 特征生成机制通用 部分相关游戏特征无法发现
奥赛罗棋策略发现系统 奥赛罗棋 刻意知识发现,协同进化 协同进化方法 发现高水平游戏所需的移动性特征 仅针对奥赛罗棋
存档游戏记录分析系统 奥赛罗棋 刻意知识发现,特征组合 基于频率和条件互信息选择特征 实验评估准确率较高 依赖大量游戏记录,计算负担大
SAL 两人、完全信息、确定性棋盘游戏 通用学习 TD学习结合神经网络反向传播 内核与游戏无关 学习速度慢
Hoyle 两人、确定性、完全信息有限棋盘游戏 通用学习 课程和实践训练方案,PWL算法 能学习多种游戏,顾问多样性利于学习 决策对顾问权重选择敏感

从这个表格可以看出,不同系统在适用游戏类型、特征发现方式、学习机制等方面存在差异。一些系统专注于特定游戏,而另一些则具有更广泛的适用性;在特征发现上,有自发和刻意之分;学习机制也各有特色。

graph LR
    A[系统类型] --> B[自发特征发现系统]
    A --> C[刻意知识发现系统]
    A --> D[通用学习系统]
    B --> E[Blondie]
    C --> F[Morph]
    C --> G[Zenith]
    C --> H[奥赛罗棋策略发现系统]
    C --> I[存档游戏记录分析系统]
    D --> J[SAL]
    D --> K[Hoyle]
未来发展方向

虽然目前这些系统在游戏领域取得了一定成果,但距离真正实现通用的、具有高度创造力的游戏智能还有很长的路要走。以下是一些可能的未来发展方向:
1. 提高学习效率 :许多系统存在学习速度慢的问题,如SAL。未来可以探索更高效的学习算法和优化策略,减少学习所需的时间和资源。例如,研究如何更合理地选择训练数据,或者开发并行计算的学习方法。
2. 增强特征发现能力 :部分系统在特征发现方面存在局限性,如Zenith无法发现所有相关游戏特征。可以结合多种特征发现方法,或者引入更先进的机器学习技术,如深度学习,以提高系统发现新特征的能力。
3. 实现真正的创造力 :目前的系统大多距离真正的创造力还有差距。未来需要研究如何让系统能够像人类一样,从不同角度思考问题,产生新颖且有效的游戏策略。这可能涉及到模拟人类的思维过程和创造力机制。
4. 拓展多游戏玩法 :虽然已经有一些系统尝试实现多游戏玩法,但距离开发出能玩几乎任何游戏的通用代理还有很大距离。可以进一步研究如何抽象出不同游戏的共性,设计出更通用的学习和推理方法。
5. 融合多种技术 :将不同的技术,如神经网络、遗传算法、符号逻辑等进行融合,发挥各自的优势,可能会带来更好的游戏智能表现。例如,结合神经网络的强大学习能力和符号逻辑的可解释性。

总结

游戏领域的智能系统在创造力、知识发现和多游戏玩法方面已经取得了一定的进展。从自发特征发现到刻意知识发现,再到通用学习系统的尝试,各个系统都有其独特的贡献和不足。通过对这些系统的研究和分析,我们可以看到未来的发展方向和挑战。提高学习效率、增强特征发现能力、实现真正的创造力、拓展多游戏玩法以及融合多种技术,将是未来游戏智能发展的重要方向。随着技术的不断进步,我们有望看到更强大、更具创造性的游戏智能系统的出现,为游戏领域带来新的变革。

希望这些研究能够为游戏开发者、人工智能研究者以及游戏爱好者提供有价值的参考,推动游戏智能领域不断向前发展。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值