56、利用强化学习玩 Flippers 游戏：L - 学习算法剖析

最新推荐文章于 2025-09-24 10:32:00 发布

人间计算器

最新推荐文章于 2025-09-24 10:32:00 发布

阅读量47

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习的视觉之旅文章标签：强化学习 L-学习算法 Flippers游戏

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/swift5iosmith/article/details/151036111

深度学习的视觉之旅专栏收录该内容

65 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

利用强化学习玩 Flippers 游戏：L - 学习算法剖析

1. Flippers 游戏简介

Flippers 是一款简单的单人游戏。游戏棋盘上有空白和圆点两种状态的方块，玩家的目标是通过翻转方块来赢得游戏，且尽可能用最少的步数。例如，初始棋盘可能有三个圆点，玩家通过一系列方块翻转操作，最终达成胜利条件。

2. L - 学习算法基础

奖励系统
- 游戏过程中，除了最后赢得游戏的那一步，每一步的即时奖励为 0。
- 最终获胜步骤的奖励取决于游戏的步数，步数越少，奖励越大。若一步获胜，奖励为 1；步数越多，奖励快速递减。
L - 表
- L - 表是该算法的核心，它是一个 512 行 9 列的表格。因为棋盘有 512 种可能的配置，所以有 512 行；每行的 9 列对应 9 种可能的操作。
- 表格中的每个单元格包含一个 L - 值，代表对应操作的优劣得分。在开始学习前，所有单元格初始值为 0。
更新规则
- 每次游戏结束后，计算每个操作的总未来奖励（TFR）。由于游戏中除最后一步外即时奖励都为 0，所以每个操作的 TFR 等于最终奖励。
- 简单的更新规则是用本次计算的 TFR 直接替换单元格中原来的值。
策略

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。