第一篇：强化学习基本原理通俗介绍

最新推荐文章于 2024-11-10 10:35:39 发布

算法channel

最新推荐文章于 2024-11-10 10:35:39 发布

阅读量791

点赞数 1

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/xo3ylAF9kGs/article/details/130775996

版权

你好，我是zhenguo（郭震）

今天强化学习第一篇：白话介绍强化学习的基本原理

强化学习是一种机器学习方法，旨在让智能体（agent）通过与环境的交互学习如何做出最优的行动选择以获得最大的累积奖励。

这是官方化的定义，初学者如何更好理解这个定义呢。

我们看看下面这幅图，智能体就是下面的红点。

环境是什么呢？就是智能体（红点）所处的这个迷宫，迷宫中黑格子表示障碍物，它是无法穿过的。白格子表示可以正常通行。这就是环境。

强化学习的目标就是让红点变得足够智能，智能到什么程度呢？让它能够顺利的找到从红格子（起始点）到绿格子（迷宫出口）的路径，并且学习到最后：让它能够从任意一个起始点找到一条合适的路径从出口出去。

如果学习一段时间，最终智能体几乎很快就能找到：从任意起点到出口的路径。

你看，这足够有意思吧！

它是如何做到的？答案是强化学习。

进一步说是靠奖励做到的。

简单来说，你走对了，我奖励你；走到障碍物那里，我惩罚你；找到出口我大大的奖励你，这就是一个简单明了的奖励机制。

不断重复下去，不断尝试和试错，最终红点就变为真正的智能体。

你看下面这幅图，红点是不是很智能了，它总能找到出口，并且基本不再犯错。

这条路径中，它只犯过这样的错误，圆圈所示，它尝试走到这里，但是发现两侧都是障碍物，无法越过，然后马上回退到上一步，并且准确走出迷宫。

以上就是强化学习的一个基本原理介绍。

这是第一篇强化学习文章，我总结此系列文章尽量简短通俗，不去弄那种特别长，大家只收藏不学习的。

希望真正对你有启发。

你的点赞和转发，给我更新增加更大动力，感谢你的支持。

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。