归纳逻辑编程:探索游戏策略学习的新路径
在人工智能领域,自动化游戏玩法、机器学习和逻辑推理都是重要的研究方向。传统上,机器学习在游戏中的应用已有很长历史,但有一种新的方法正崭露头角,即尝试运用归纳逻辑编程(ILP)来学习组合游戏的完整且正确的游戏策略。
1. 背景知识
在组合博弈论中,有一类特殊的游戏叫做公平游戏,在这类游戏中,允许的移动只取决于当前的局面,而不取决于当前是哪个玩家在移动。例如,尼姆游戏(Nim)就是一种公平游戏,两个玩家轮流从不同的堆中移除物体,每次至少移除一个物体,并且所有移除的物体必须来自同一堆,取走最后一个物体的玩家获胜。
公平游戏的每个状态可以分为两种类型的位置:P - 位置和 N - 位置,并且有三个定理构成了公平游戏获胜策略的基础:
- 任何应用于 P - 位置的移动都会将游戏转变为 N - 位置。
- 至少有一个移动可以将游戏从 N - 位置转变为 P - 位置。
- 游戏结束时的最终位置是 P - 位置。
2. ILP 学习游戏策略的方法
我们的目标是使用 ILP 系统 Progol 4.5 来学习公平游戏的 N - P 位置分类器,然后使用这个分类器来构建这些游戏的获胜移动生成器。这种方法也可以很容易地扩展到基于 N - P 位置的偏序游戏(非公平组合游戏)。
2.1 ILP 表示游戏
- 正例和反例 :处于 P - 位置的公平游戏是正例,处于 N - 位置的公平游戏是反例。
- 背景知识 :有一组数学运算 {xor, mo
超级会员免费看
订阅专栏 解锁全文
5977

被折叠的 条评论
为什么被折叠?



