强化学习在复杂环境中的决策应用
在强化学习领域,动态规划方法可用于解决问题,但它要求环境的转移矩阵和奖励矩阵完全已知,且对于状态众多的环境可扩展性有限。接下来,我们将介绍蒙特卡罗方法,它无需环境的先验知识,扩展性更强。
蒙特卡罗学习
蒙特卡罗(MC)强化学习是一种无模型的方法,不需要已知的转移矩阵和奖励矩阵。下面我们将在21点游戏环境中进行MC策略评估,并使用MC控制算法解决该环境问题。
模拟21点游戏环境
21点是一种流行的纸牌游戏,规则如下:
- 玩家与庄家竞争,若玩家手牌总值更高且不超过21,则获胜。
- 2 - 10的牌面价值为2 - 10。
- J、K、Q的牌面价值为10。
- A的牌面价值可以是1或11(称为“可用”A)。
- 游戏开始时,双方各发两张随机牌,但玩家只能看到庄家的一张牌。玩家可以请求额外的牌(称为“要牌”)或停止要牌(称为“停牌”)。在玩家停牌前,若手牌总和超过21,则玩家输(称为“爆牌”)。玩家停牌后,庄家继续抽牌直到手牌总和达到17。若庄家手牌总和超过21,则玩家获胜。若双方都未爆牌,则点数高者获胜或平局。
Gym中的21点环境(https://github.com/openai/gym/blob/master/gym/envs/toy_text/blackjack.py)的设定如下:
- 环境的一轮游戏从双方各两张牌开始,玩家只能观察到庄家的一张牌。
- 若有一方获胜或平局,则一轮游戏结束。
- 一轮游戏的最终奖励:玩家获胜为 +1,玩家失败为 -1,平局为 0。
- 在每一轮中,玩家可以采取两种行动:要牌(1)和
超级会员免费看
订阅专栏 解锁全文
22万+

被折叠的 条评论
为什么被折叠?



