探索L-Learning算法:从入门到挑战
1. L-Learning算法简介
L-Learning算法是为学习如何玩Flippers游戏而构建的一个系统。虽然后续会对该算法进行优化,但初始版本表现不佳,因此被称为L-Learning,这里的“L”代表“lousy”(糟糕)。不过,它是我们迈向更优算法的一块垫脚石。
2. 基础设定
- 奖励系统 :在Flippers游戏中,除了赢得游戏的最后一步会获得奖励外,其他每一步的即时奖励均为0。最终奖励取决于游戏的步数,步数越少,奖励越大。例如,一步获胜奖励为1,随着步数增加,奖励迅速下降。
- L-table :这是系统的核心,是一个512行9列的表格。每一行代表棋盘的一种状态,每一列代表针对该棋盘可采取的9种动作之一,每个单元格中的值称为L-value。在学习过程中,我们会将动作的分数存入表格,以此指导后续的动作选择。初始时,表格的每个单元格都被初始化为0。
3. 具体步骤
- 确定动作分数 :使用总未来奖励(TFR)来为每个动作打分。在游戏过程中,除最后一步外,其他步骤的即时奖励为0,因此每个动作的TFR等于最终奖励。
- 更新规则 :采用简单的更新规则,即每次游戏结束后,将计算得到的TFR直接替换单元格中原来的值。
- 动作选择策略 :通常选择对应行中L-value最大的动作。若有多个单元格的值相同,则随
超级会员免费看
订阅专栏 解锁全文
838

被折叠的 条评论
为什么被折叠?



