强化学习:原理、模型与算法解析
1. 强化学习简介
强化学习中,学习者是一个决策代理,它在环境中采取行动,并因这些行动获得奖励(或惩罚)以尝试解决问题。经过一系列试错运行后,代理应学会最佳策略,即能使总奖励最大化的行动序列。
为了更好地理解强化学习,我们来看两个具体例子:
- 下棋机器 :若要构建一个学习下棋的机器,不能使用监督学习。一方面,找一个能指导我们进行多场游戏并指出每个位置最佳走法的老师成本极高;另一方面,很多情况下不存在绝对的最佳走法,一步棋的好坏取决于后续的走法,只有在游戏结束时才能得到反馈。
- 迷宫机器人 :将机器人置于迷宫中,它可以向四个方向移动,需通过一系列移动到达出口。在迷宫中时,机器人没有反馈,只有到达出口才能获得奖励。这种情况下虽无对手,但我们更倾向于较短的路径,可看作是与时间赛跑。
这两个应用的共同点如下:
| 要素 | 描述 |
| ---- | ---- |
| 决策代理 | 处于环境中的决策者,如下棋的玩家、迷宫中的机器人 |
| 环境状态 | 环境在某一时刻所处的状态,例如下棋的棋盘状态、机器人在迷宫中的位置 |
| 可能行动 | 决策代理在特定状态下能采取的行动,例如下棋时棋子的合法移动、机器人在不撞墙的情况下的移动方向 |
| 状态改变 | 代理采取行动后,环境状态会发生改变 |
| 反馈奖励 | 通常在完成一系列行动后,以奖励的形式获得反馈 |
强化学习与之前讨论的学习方法有诸多不同,它被称为“带评判的学习”,区别于监督学习中的“带教师的学习”。评判者不
超级会员免费看
订阅专栏 解锁全文
2832

被折叠的 条评论
为什么被折叠?



