25、多游戏玩法:从经典系统到通用游戏竞赛

多游戏玩法:从经典系统到通用游戏竞赛

在游戏领域,实现能够应对多种不同游戏的系统一直是研究者们追求的目标。不同的系统采用了各自独特的方法,在多游戏玩法的探索中不断前进。

1. Hoyle系统

Hoyle在多游戏玩法中展现出了独特的优势。它的学习和决策过程与人有相似之处,在选择移动步骤时,能够容忍不完整和不准确的信息,还能同时考虑多个相互冲突的理由。它将基于模式的学习与高级推理相结合,首先考虑明显的强(获胜)和弱(失败)移动,然后再处理其余的移动。在第三层决策中,是通过各种部分冲突概念之间的协商过程产生的。而且,Hoyle的决策可以通过对顾问评论的自然语言解释来理解。综合其设计原则、大量的研究努力以及良好的实验结果,Hoyle无疑是多游戏玩法中的一个里程碑式的成就。

2. METAGAMER系统
  • 适用游戏类型 :METAGAMER由Barney Pell提出,适用于一类对称棋类(SCL)游戏。这类游戏是两人完全信息游戏,玩家在矩形棋盘上沿指定方向移动棋子,不同棋子有不同的移动、捕获和晋升能力,目标包括消除特定类型的棋子、使对手无棋可走或让特定棋子占据特定方格等。典型的SCL游戏有国际象棋、跳棋、西洋跳棋、中国象棋或将棋。
  • 系统构成 :METAGAMER配备了基于极小极大算法的搜索引擎,采用了α - β剪枝和迭代加深启发式。其核心是与游戏无关的通用评估函数,由一组预定义的简单特征(目标)组成。系统根据输入的特定游戏规则,构建高效的游戏表示和合适的评估函数供通用搜索引擎使用。人类预定义的知识仅限于SCL游戏框架的一般描述,玩该类游戏的特定代表需要特定游戏的优化,但无需人工干预。
  • 评估函数顾问 :与Hoyle类似,评估函数中的每个特征以顾问的形式定义,用于判断某个游戏方面对玩家或对手是否有利。不同的是,METAGAMER的顾问只能形成积极的意见,负面意见可以通过对对手情况陈述有利意见来形成。顾问由特定的启发式规则定义,返回的值会添加到位置强度的总体估计中。系统实现了四类顾问,分别涉及移动性、威胁和捕获、目标和步骤函数以及物质,前三类各有4个代表,最后一类包括11个顾问。
  • 物质分析 :METAGAMER被用于物质分析,估计跳棋(普通棋子与王棋)和国际象棋棋子的相对强度。在国际象棋中,一些棋子的估计值与人类常用的数值接近,如骑士和主教的值分别为46.9和51.7,车的值为75.5,但兵和皇后的值分别为12.6和103,被低估。在跳棋中,普通棋子与王棋的相对强度估计在预期范围内,王棋与普通棋子的比率为1.67,符合常见启发式建议的区间[1.5, 2.0]。
  • 实验结果 :在初步实验中,METAGAMER与1992年版的Chinook和GNU Chess(1992年版)进行了对战。结果表明,在给予一个棋子的让子情况下,METAGAMER与最容易级别的Chinook水平相当。由于关注移动性的顾问,METAGAMER能够“重新发现”在游戏后期再移动后排棋子的策略价值。在国际象棋中,在给予一个骑士的让子且GNU Chess处于1级(搜索1层并在非安静位置可能扩展)时,METAGAMER与GNU Chess表现相当,它搜索1层并偶尔扩展到2层。
  • 存在问题 :METAGAMER实验虽然是构建通用游戏系统的一个有趣方法,但也存在一些问题。其中一个主要的未解决问题是为顾问分配权重的集合构建,或者像Hoyle一样,缺乏自主协商/更新权重的机制。此外,由于顾问的构建部分反映了人类关于SCL游戏的领域知识,不太可能轻易适用于其他或更广泛的游戏类别。
3. Morph II系统

Morph II由Robert Levinson开发,是另一个著名的与游戏无关的学习系统和问题解决者。它是Morph的直接延续,结合了计算智能(CI)技术与人工智能符号学习。它使用类似神经网络的权重传播学习和遗传模式进化,游戏规则和模式以概念图表示,允许快速有效地增量更新模式数据库。系统能够自主抽象新的特征和模式,并开发自己的学习模块。与前身一样,Morph II平均仅进行2层的浅层搜索。Morph已经能够以新手水平玩国际象棋,而Morph II的目标是达到大师级水平(相当于2200 ELO排名点或以上)。它被设计为与领域无关的系统,领域模式或特征不是提供给它,而是通过一组通用定义的数学变换从游戏规则中推导出来,特征的权重也由系统自主确定,学习过程无参数,所有学习系数和参数根据系统经验动态调整。不过,它在国际象棋以外领域的性能尚未得到证明。

4. 通用游戏竞赛(GGP)
  • 竞赛背景和游戏类型 :通用游戏竞赛(GGP)由斯坦福大学提出,进一步扩展了多游戏玩法的研究方向。GGP中的游戏玩家系统能够在运行时接受任意游戏的声明性描述,并使用这些描述有效地玩游戏,无需人工干预。所考虑的游戏类别扩展到有限、同步、多玩家游戏,这些游戏可以用状态机表示,规则用一阶逻辑定义,游戏描述使用游戏描述语言(GDL)以逻辑句子的形式提供,GDL可用于定义离散的完全信息游戏,也有可能扩展到不完全信息游戏。
  • 实现GGP代理的方法 :由于游戏描述是用逻辑语言表述的,实现GGP代理最自然的方式是使用逻辑推理。计算机玩家可以在游戏过程的每一步重复解释游戏描述,也可以将游戏描述映射到另一种表示形式,然后在游戏中进行解释性使用,还可以应用预定义的编程程序,根据游戏描述自主设计出能够玩该游戏的专用程序。
  • 部分参赛系统介绍
    • Cluneplayer :在首届和第二届年度GGP竞赛中,依赖于基于预定义的通用特征自动生成游戏特征的系统最为成功。2005年的冠军Cluneplayer通过分析游戏描述,将游戏抽象为三个核心方面:预期收益、控制(相对移动性)和预期游戏终止。这些方面被建模为(自动选择的)游戏状态特征的加权线性组合。特征选择过程基于对游戏规则的三种预定义解释类型,最终选择由每个候选特征的稳定性引导。在不同复杂度的游戏中,这些方面在评估函数中的相关性有所不同,在复杂游戏中,可能只能关注预期收益相关的项和权重。
    • Fluxplayer :2006年的获胜者Fluxplayer使用模糊逻辑确定游戏描述中某些公式对定义目标和终端状态的谓词的支持程度。它为原子分配0和1(或更一般地,对于固定的p ∈[0, 1],分配1 - p和p)的值,反映它们在目标状态中的真实性,并使用T - 范数和相关的S - 范数计算复杂公式的真实程度。该方法还通过自动检测游戏描述中的结构并分配非二进制值来增强。其一般游戏策略是除非目标达成,否则避免终端状态。因此,当目标值高时,谓词终端的值对评估函数有正贡献,否则为负贡献。
    • CadiaPlayer :2007年和2008年竞赛的获胜者CadiaPlayer采用了基于蒙特卡罗(MC)模拟的方法,并结合了UCT算法(应用于树的上置信界)。UCT方法在内存中维护游戏树,跟踪每个已玩过的状态 - 动作组合Q(s, a)的平均回报。在当前考虑的状态s中要探索的动作a∗根据以下公式选择:
      [a^{*}=\arg\max_{a\in A(s)}\left{Q(s, a)+C\sqrt{\frac{\ln N(s)}{N(s, a)}}\right}]
      其中,Q(s, a)是动作值函数,A(s)表示状态s中可用的所有动作集合,N(s)是状态s被访问的次数,N(s, a)表示动作a在状态s中被探索的次数。UCT增强了MC模拟,能够在游戏空间的探索和利用之间建立适当的平衡。此外,CadiaPlayer还使用对手建模技术,为多玩家游戏中的每个玩家分配单独的模型。
    • NEAT - Based Player :由于比赛前为游戏系统准备(包括获取游戏规则)的时间有限,在GGP中使用计算智能(CI)方法受到严重阻碍。但基于共同进化的NEAT方法为GGP提供了一种有前景的应用。该方法使用神经拓扑增强进化(NEAT),允许同时进化神经网络架构和其权重。每个基因组由连接基因列表组成,每个连接表示为一个5元组<起始节点,目标节点,权重,启用位,创新编号>。进化从简单的小网络开始,在共同进化过程中根据需要扩展网络。种群中的每个神经网络代表一个启发式评估函数,初始时是一个具有40个输入和1个输出的简单感知器,没有隐藏单元。输入是当前游戏状态相关输入特征的随机投影。在共同进化的适应度评估过程中,每个个体根据覆盖竞争算法(CCA)与从种群中抽取的对手组合进行评估。该方法在GGP语料库中的五个双人游戏上进行了测试,在大多数情况下,进化后的玩家表现优于随机对手,但仍有许多方面需要改进,如共同进化过程的设计和更有效地纳入游戏领域知识等。

以下是一个简单的mermaid流程图,展示METAGAMER系统的基本工作流程:

graph LR
    A[输入游戏规则] --> B[构建游戏表示]
    B --> C[生成评估函数]
    C --> D[搜索引擎搜索]
    D --> E[输出决策]

在多游戏玩法的探索中,不同的系统各有优劣。Hoyle在学习和决策的人性化方面表现出色;METAGAMER在SCL游戏中展现了独特的评估和分析能力;Morph II致力于领域无关的学习和问题解决;而GGP竞赛中的各个系统则在通用游戏玩法上不断创新。未来,随着技术的不断发展,多游戏玩法的系统有望在更多的游戏类型和更复杂的场景中取得更好的表现。

多游戏玩法:从经典系统到通用游戏竞赛

5. 各系统特点对比

为了更清晰地了解不同系统在多游戏玩法中的特点,我们可以通过以下表格进行对比:
| 系统名称 | 适用游戏类型 | 学习与决策方式 | 评估函数特点 | 主要优势 | 存在问题 |
| — | — | — | — | — | — |
| Hoyle | 未明确限制 | 容忍不完整信息,结合模式学习与高级推理,分层次考虑移动 | 顾问可解释决策 | 学习和决策过程与人相似,决策可解释 | 未提及 |
| METAGAMER | 对称棋类(SCL)游戏 | 根据游戏规则构建表示和评估函数 | 由预定义简单特征组成,顾问仅形成积极意见 | 可进行物质分析,对SCL游戏有较好适应性 | 权重分配和更新机制待解决,难以适用于其他游戏类别 |
| Morph II | 理论上领域无关 | 结合CI与AI符号学习,自主抽象特征和模式 | 特征和权重自主确定,无参数学习 | 目标远大,可自主发展学习模块 | 国际象棋以外领域性能未证明 |
| Cluneplayer(GGP) | 通用游戏竞赛涉及的各类游戏 | 分析游戏描述抽象核心方面,自动选择特征 | 核心方面建模为特征加权线性组合 | 能适应不同复杂度游戏 | 复杂游戏中可能无法全面考虑所有方面 |
| Fluxplayer(GGP) | 通用游戏竞赛涉及的各类游戏 | 使用模糊逻辑确定公式支持程度 | 基于模糊逻辑计算真实程度 | 采用模糊逻辑处理游戏描述 | 无明显缺点提及 |
| CadiaPlayer(GGP) | 通用游戏竞赛涉及的各类游戏 | 基于蒙特卡罗模拟和UCT算法 | UCT算法平衡探索和利用 | 有效平衡游戏空间探索和利用,使用对手建模 | 受计算资源和时间限制 |
| NEAT - Based Player(GGP) | 通用游戏竞赛涉及的各类游戏 | 采用NEAT方法和CCA评估 | 神经网络代表启发式评估函数 | 能从游戏中提取相关信息 | 共同进化过程设计和知识纳入待改进 |

6. 多游戏玩法系统的发展趋势

从上述各系统的特点和表现来看,多游戏玩法系统呈现出以下发展趋势:
- 通用性增强 :越来越多的系统致力于摆脱对特定游戏类型的依赖,如Morph II设计为领域无关系统,GGP竞赛更是推动了系统在通用游戏玩法上的发展,未来系统有望适用于更广泛的游戏类别。
- 智能化提升 :各系统不断引入新的技术和算法,如CadiaPlayer的蒙特卡罗模拟和UCT算法,NEAT - Based Player的神经拓扑增强进化方法,使系统在决策和学习过程中更加智能,能够更好地应对复杂的游戏场景。
- 知识自主获取与利用 :像Morph II和NEAT - Based Player等系统,能够自主抽象特征、确定权重,减少对人类预定义知识的依赖,未来系统可能会在知识的自主获取和利用方面有更大的突破。
- 多技术融合 :不同系统结合了多种技术,如Morph II结合了CI技术与AI符号学习,未来可能会有更多的技术融合,以发挥不同技术的优势,提高系统的性能。

7. 面临的挑战与解决方案探讨

尽管多游戏玩法系统取得了一定的进展,但仍然面临着一些挑战:
- 计算资源和时间限制 :复杂游戏的搜索空间巨大,如大型棋盘的围棋,模拟和搜索过程需要大量的计算资源和时间。解决方案可以包括优化算法,如CadiaPlayer的UCT算法在一定程度上平衡了探索和利用,减少了不必要的搜索;利用并行计算技术,充分发挥多核大规模并行机器的优势。
- 知识的有效纳入和利用 :虽然一些系统尝试自主获取知识,但在实际应用中,如何更有效地纳入游戏领域知识仍然是一个问题。可以通过改进特征提取和表示方法,将游戏规则更好地转化为系统可利用的特征;在共同进化过程中,设计更合理的机制来利用已有的知识。
- 权重分配和更新机制 :许多系统如METAGAMER存在权重分配和更新的问题。可以借鉴机器学习中的优化算法,如梯度下降法,根据系统的表现动态调整权重;或者设计自主协商机制,让系统在游戏过程中自动更新权重。

以下是一个mermaid流程图,展示多游戏玩法系统发展面临的挑战及可能的解决方案:

graph LR
    A[计算资源和时间限制] --> B[优化算法]
    A --> C[并行计算]
    D[知识的有效纳入和利用] --> E[改进特征提取]
    D --> F[合理利用已有知识]
    G[权重分配和更新机制] --> H[机器学习优化算法]
    G --> I[自主协商机制]
8. 总结

多游戏玩法系统的发展是一个不断探索和创新的过程。从早期的Hoyle、METAGAMER到后来的Morph II以及GGP竞赛中的各个系统,每个系统都在不同方面做出了贡献。虽然目前各系统还存在一些不足之处,但随着技术的不断进步和研究的深入,我们有理由相信,未来多游戏玩法系统将能够在更多的游戏场景中展现出强大的性能,为玩家带来更好的游戏体验。同时,这些系统的发展也将为人工智能和计算智能领域的研究提供宝贵的经验和启示。

在未来的研究中,我们可以进一步关注系统的通用性、智能化和自主学习能力的提升,探索更多的技术融合方式,解决当前面临的挑战,推动多游戏玩法系统迈向新的高度。

总之,多游戏玩法的世界充满了无限的可能性,让我们拭目以待这些系统在未来的精彩表现。

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值