强化学习:原理、方法与应用
1. 学习检验问题
为确保对强化学习主题的理解,可尝试回答以下问题:
- 描述在N臂老虎机问题中搜索最佳机器时使用的ε - 贪心策略。解释动作及其值的含义,以及开发和探索的含义。
- 描述维护平均奖励的简单机制,该机制如何更新动作的值?
- 为什么建议将所有动作的初始值$Q_0(a_i)$设置为典型奖励的倍数?
2. 游戏中的状态和动作
2.1 简单示例的局限性
以老虎机为例是一种简化,便于解释基本术语。但其主要局限性在于只有一个状态,只需在该状态下选择合适的动作。而在现实中,情况往往更复杂,通常存在多个状态,每个状态都有多个动作可供选择,这可以通过井字棋游戏来说明。
2.2 井字棋游戏原理
井字棋游戏的棋盘是一个3×3的方格。两名玩家轮流行动,一名玩家放置“X”,另一名玩家放置“O”。目标是使三个“X”或“O”在一行、一列或对角线上连成一线,先达成此目标的玩家获胜。例如,在某一局面下,如果轮到放置“X”的玩家,他将“X”放在左下角就能获胜;若轮到对手,对手可在此处放置“O”来阻止其获胜。
2.3 状态和动作的定义
每个棋盘位置代表一个状态。在每个状态下,玩家需要选择一个具体的动作。例如,在某一状态下有三个空位,就有三个动作可供选择(其中一个可能是获胜动作)。整个情况可以用一个查找表来表示,其中每个状态 - 动作对都有一个特定的值$Q(s, a)$。基于这些值,ε - 贪心策略决定在特定状态下应采取的动作。动作会产生一个奖励$r$,然后使用公式14.1来更新状态 - 动作对的值。
实现学习
超级会员免费看
订阅专栏 解锁全文
2799

被折叠的 条评论
为什么被折叠?



