使用Uppaal Stratego玩Wordle
1. Wordle游戏简介
Wordle是一款基于网页的单词游戏,玩家有六次机会猜出对手选定的一个五个字母的单词。每次猜测后,对手会通过彩色方块反馈字母是否匹配或位置是否正确。具体规则如下:
- 不在单词中的字母会以灰色高亮显示。
- 在单词中但位置错误的字母会以黄色高亮显示。
- 位置正确的字母会以绿色高亮显示。
- 如果猜测的单词中有重复字母,而目标单词中只有一个该字母,那么第二个重复字母会被标记为灰色。
Wordle的猜测/反馈交互可以看作是一个决策树。从形式上来说,Wordle是对手和玩家之间的游戏。对手有两种选择方式:一种是对抗性地非确定性地选择一个单词,以最大化玩家所需的最少猜测次数;另一种是使用概率分布来选择要猜测的单词,本文采用后一种方式,玩家的目标是找到一种策略,以最小化揭示所选单词所需的预期猜测次数。在概率情况下,该游戏正式属于部分可观察马尔可夫决策过程(POMDP)。
2. Uppaal Stratego介绍
Uppaal Stratego是Uppaal工具套件的最新分支,它使用符号模型检查和强化学习来为马尔可夫决策过程(MDP)获得安全且(接近)最优的策略。其适用的MDPs是无限状态的,基于定时自动机(Timed MDPs)或混合自动机(Continuous - Space MDPs)。具体操作步骤如下:
1. 使用模型检查的符号技术,将给定的MDP M抽象为一个两人定时游戏,为给定的安全目标S合成一个最宽松的策略σS。
2. 应用各种版本的强化学习,获得优化给定优化标准O的(仍然安全的)子策略σO。
3. Upp
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



