48、强化学习：原理、模型与算法解析

tequila

于 2025-09-24 09:09:12 发布

阅读量29

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习入门精要文章标签：强化学习马尔可夫决策过程价值迭代

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/tequila/article/details/152511183

机器学习入门精要专栏收录该内容

58 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

强化学习：原理、模型与算法解析

1. 强化学习简介

强化学习中，学习者是一个决策代理，它在环境中采取行动，并因这些行动获得奖励（或惩罚）以尝试解决问题。经过一系列试错运行后，代理应学会最佳策略，即能使总奖励最大化的行动序列。

为了更好地理解强化学习，我们来看两个具体例子：
- 下棋机器 ：若要构建一个学习下棋的机器，不能使用监督学习。一方面，找一个能指导我们进行多场游戏并指出每个位置最佳走法的老师成本极高；另一方面，很多情况下不存在绝对的最佳走法，一步棋的好坏取决于后续的走法，只有在游戏结束时才能得到反馈。
- 迷宫机器人 ：将机器人置于迷宫中，它可以向四个方向移动，需通过一系列移动到达出口。在迷宫中时，机器人没有反馈，只有到达出口才能获得奖励。这种情况下虽无对手，但我们更倾向于较短的路径，可看作是与时间赛跑。

这两个应用的共同点如下：
| 要素 | 描述 |
| ---- | ---- |
| 决策代理 | 处于环境中的决策者，如下棋的玩家、迷宫中的机器人 |
| 环境状态 | 环境在某一时刻所处的状态，例如下棋的棋盘状态、机器人在迷宫中的位置 |
| 可能行动 | 决策代理在特定状态下能采取的行动，例如下棋时棋子的合法移动、机器人在不撞墙的情况下的移动方向 |
| 状态改变 | 代理采取行动后，环境状态会发生改变 |
| 反馈奖励 | 通常在完成一系列行动后，以奖励的形式获得反馈 |

强化学习与之前讨论的学习方法有诸多不同，它被称为“带评判的学习”，区别于监督学习中的“带教师的学习”。评判者不

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。