40、LS-Draughts:利用数据库处理混合进化学习系统中的残局循环问题

LS-Draughts与残局数据库优化

LS-Draughts:利用数据库处理混合进化学习系统中的残局循环问题

1. 引言

强化学习方法在机器学习领域备受关注,因其无需智能“教授”提供训练示例,适用于难以或无法获取此类示例的复杂领域。其中,TD学习方法表现突出,广泛应用于构建能够学习玩国际跳棋、国际象棋、西洋双陆棋等游戏的智能体,充分证明了游戏是研究和检验机器学习主要技术效率的理想领域。

LS-Draughts是基于Mark Lynch的NeuroDraughts玩家开发的国际跳棋学习系统,它运用了遗传算法(GAs)、人工神经网络(ANN)和时间差分(TD)强化学习方法这三个重要的机器学习工具。同时,采用NET - FEATUREMAP映射技术来表示游戏棋盘状态,通过遗传算法自动生成一组简洁高效的特征,优化国际跳棋玩家智能体的训练。其核心是一个人工神经网络,通过时间差分强化学习方法更新网络权重,网络输出表示棋盘状态对智能体的有利程度。智能体通过自我对弈和克隆技术进行训练,使用极小极大算法选择最佳行动。尽管LS - Draughts提高了NeuroDraughts的整体性能,但仍存在残局循环问题。为解决这一问题,引入了Chinook的残局数据库,旨在探讨两个重要问题:一是残局数据库的加入是否能提高LS - Draughts的整体性能;二是使用残局数据库是否有助于减少残局循环率。

2. 游戏中的时间差分方法

玩家神经网络可结合TD强化学习方法和极小极大搜索。对于网络的良好表现,会从环境中获得对应终局状态的正强化;表现不佳则获得负强化。对于中间游戏棋盘状态,TD机制通过以下公式计算胜利预测P:
[P = g(in_{output})]
其中,g是双曲正切函数,(in_{output

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值