31、强化学习:原理、方法与应用

强化学习:原理、方法与应用

1. 学习检验问题

为确保对强化学习主题的理解,可尝试回答以下问题:
- 描述在N臂老虎机问题中搜索最佳机器时使用的ε - 贪心策略。解释动作及其值的含义,以及开发和探索的含义。
- 描述维护平均奖励的简单机制,该机制如何更新动作的值?
- 为什么建议将所有动作的初始值$Q_0(a_i)$设置为典型奖励的倍数?

2. 游戏中的状态和动作
2.1 简单示例的局限性

以老虎机为例是一种简化,便于解释基本术语。但其主要局限性在于只有一个状态,只需在该状态下选择合适的动作。而在现实中,情况往往更复杂,通常存在多个状态,每个状态都有多个动作可供选择,这可以通过井字棋游戏来说明。

2.2 井字棋游戏原理

井字棋游戏的棋盘是一个3×3的方格。两名玩家轮流行动,一名玩家放置“X”,另一名玩家放置“O”。目标是使三个“X”或“O”在一行、一列或对角线上连成一线,先达成此目标的玩家获胜。例如,在某一局面下,如果轮到放置“X”的玩家,他将“X”放在左下角就能获胜;若轮到对手,对手可在此处放置“O”来阻止其获胜。

2.3 状态和动作的定义

每个棋盘位置代表一个状态。在每个状态下,玩家需要选择一个具体的动作。例如,在某一状态下有三个空位,就有三个动作可供选择(其中一个可能是获胜动作)。整个情况可以用一个查找表来表示,其中每个状态 - 动作对都有一个特定的值$Q(s, a)$。基于这些值,ε - 贪心策略决定在特定状态下应采取的动作。动作会产生一个奖励$r$,然后使用公式14.1来更新状态 - 动作对的值。

实现学习

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值