LS-Draughts:利用数据库处理混合进化学习系统中的残局循环问题
1. 引言
强化学习方法在机器学习领域备受关注,因其无需智能“教授”提供训练示例,适用于难以或无法获取此类示例的复杂领域。其中,TD学习方法表现突出,广泛应用于构建能够学习玩国际跳棋、国际象棋、西洋双陆棋等游戏的智能体,充分证明了游戏是研究和检验机器学习主要技术效率的理想领域。
LS-Draughts是基于Mark Lynch的NeuroDraughts玩家开发的国际跳棋学习系统,它运用了遗传算法(GAs)、人工神经网络(ANN)和时间差分(TD)强化学习方法这三个重要的机器学习工具。同时,采用NET - FEATUREMAP映射技术来表示游戏棋盘状态,通过遗传算法自动生成一组简洁高效的特征,优化国际跳棋玩家智能体的训练。其核心是一个人工神经网络,通过时间差分强化学习方法更新网络权重,网络输出表示棋盘状态对智能体的有利程度。智能体通过自我对弈和克隆技术进行训练,使用极小极大算法选择最佳行动。尽管LS - Draughts提高了NeuroDraughts的整体性能,但仍存在残局循环问题。为解决这一问题,引入了Chinook的残局数据库,旨在探讨两个重要问题:一是残局数据库的加入是否能提高LS - Draughts的整体性能;二是使用残局数据库是否有助于减少残局循环率。
2. 游戏中的时间差分方法
玩家神经网络可结合TD强化学习方法和极小极大搜索。对于网络的良好表现,会从环境中获得对应终局状态的正强化;表现不佳则获得负强化。对于中间游戏棋盘状态,TD机制通过以下公式计算胜利预测P:
[P = g(in_{output})]
其中,g是双曲正切函数,(in_{output
LS-Draughts与残局数据库优化
超级会员免费看
订阅专栏 解锁全文
11

被折叠的 条评论
为什么被折叠?



