利用强化学习玩 Flippers 游戏:L - 学习算法剖析
1. Flippers 游戏简介
Flippers 是一款简单的单人游戏。游戏棋盘上有空白和圆点两种状态的方块,玩家的目标是通过翻转方块来赢得游戏,且尽可能用最少的步数。例如,初始棋盘可能有三个圆点,玩家通过一系列方块翻转操作,最终达成胜利条件。
2. L - 学习算法基础
- 奖励系统
- 游戏过程中,除了最后赢得游戏的那一步,每一步的即时奖励为 0。
- 最终获胜步骤的奖励取决于游戏的步数,步数越少,奖励越大。若一步获胜,奖励为 1;步数越多,奖励快速递减。
- L - 表
- L - 表是该算法的核心,它是一个 512 行 9 列的表格。因为棋盘有 512 种可能的配置,所以有 512 行;每行的 9 列对应 9 种可能的操作。
- 表格中的每个单元格包含一个 L - 值,代表对应操作的优劣得分。在开始学习前,所有单元格初始值为 0。
- 更新规则
- 每次游戏结束后,计算每个操作的总未来奖励(TFR)。由于游戏中除最后一步外即时奖励都为 0,所以每个操作的 TFR 等于最终奖励。
- 简单的更新规则是用本次计算的 TFR 直接替换单元格中原来的值。
- 策略
超级会员免费看
订阅专栏 解锁全文
38

被折叠的 条评论
为什么被折叠?



