60、探索L-Learning算法:从入门到挑战

探索L-Learning算法:从入门到挑战

1. L-Learning算法简介

L-Learning算法是为学习如何玩Flippers游戏而构建的一个系统。虽然后续会对该算法进行优化,但初始版本表现不佳,因此被称为L-Learning,这里的“L”代表“lousy”(糟糕)。不过,它是我们迈向更优算法的一块垫脚石。

2. 基础设定
  • 奖励系统 :在Flippers游戏中,除了赢得游戏的最后一步会获得奖励外,其他每一步的即时奖励均为0。最终奖励取决于游戏的步数,步数越少,奖励越大。例如,一步获胜奖励为1,随着步数增加,奖励迅速下降。
  • L-table :这是系统的核心,是一个512行9列的表格。每一行代表棋盘的一种状态,每一列代表针对该棋盘可采取的9种动作之一,每个单元格中的值称为L-value。在学习过程中,我们会将动作的分数存入表格,以此指导后续的动作选择。初始时,表格的每个单元格都被初始化为0。
3. 具体步骤
  • 确定动作分数 :使用总未来奖励(TFR)来为每个动作打分。在游戏过程中,除最后一步外,其他步骤的即时奖励为0,因此每个动作的TFR等于最终奖励。
  • 更新规则 :采用简单的更新规则,即每次游戏结束后,将计算得到的TFR直接替换单元格中原来的值。
  • 动作选择策略 :通常选择对应行中L-value最大的动作。若有多个单元格的值相同,则随
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值