LS-Draughts:利用数据库处理混合进化学习系统中的残局循环问题
1. 引言
强化学习方法在机器学习领域备受关注,因其无需智能“教授”提供训练示例,适合处理难以甚至无法获取训练示例的复杂领域。其中,TD学习方法表现突出,广泛应用于构建能够学习玩跳棋、国际象棋、西洋双陆棋等游戏的智能体。这些智能体表明,游戏无疑是研究和检验机器学习主要技术效率的合适领域。
LS-Draughts是一个基于Mark Lynch的NeuroDraughts玩家的跳棋学习系统,它使用了遗传算法(GAs)、人工神经网络(ANN)和时间差分(TD)强化学习方法这三个重要的机器学习工具,还采用了NET - FEATUREMAP映射技术来表示游戏棋盘状态。通过遗传算法,LS - Draughts扩展了NeuroDraughts,自动生成了一组简洁高效的特征,用于表示游戏棋盘状态并优化跳棋玩家智能体的训练。其核心是一个人工神经网络,通过时间差分强化学习方法更新网络权重。
尽管LS - Draughts提高了NeuroDraughts的整体性能,但未能解决其残局循环问题。为了解决这一问题,研究人员提出了LS - Draughts的扩展版本,加入了优秀自动跳棋玩家Chinook的残局数据库。主要目的是探讨两个重要问题:一是加入残局数据库是否能真正提高LS - Draughts的整体性能;二是使用残局数据库是否有助于降低原始LS - Draughts中的残局循环率。
2. 游戏中的时间差分方法
TD强化学习方法可与极小极大搜索结合,用于玩家神经网络。网络在表现良好时(如胜利时从环境获得正强化)会得到奖励,表现不佳时(如失败时从环境获得负强化)会受到惩罚。对于网络输入层表示
超级会员免费看
订阅专栏 解锁全文
15

被折叠的 条评论
为什么被折叠?



