第一篇:强化学习基本原理通俗介绍

你好,我是zhenguo(郭震)

今天强化学习第一篇:白话介绍强化学习的基本原理

强化学习是一种机器学习方法,旨在让智能体(agent)通过与环境的交互学习如何做出最优的行动选择以获得最大的累积奖励。

这是官方化的定义,初学者如何更好理解这个定义呢。

我们看看下面这幅图,智能体就是下面的红点

e0c27342c5a0821c72dec3d3bbe2cb39.png

环境是什么呢?就是智能体(红点)所处的这个迷宫,迷宫中黑格子表示障碍物,它是无法穿过的。白格子表示可以正常通行。这就是环境

强化学习的目标就是让红点变得足够智能,智能到什么程度呢?让它能够顺利的找到从红格子(起始点)到绿格子(迷宫出口)的路径,并且学习到最后:让它能够从任意一个起始点找到一条合适的路径从出口出去。

如果学习一段时间,最终智能体几乎很快就能找到:从任意起点到出口的路径。

你看,这足够有意思吧!

它是如何做到的?答案是强化学习

进一步说是靠奖励做到的。

简单来说,你走对了,我奖励你;走到障碍物那里,我惩罚你;找到出口我大大的奖励你,这就是一个简单明了的奖励机制。

不断重复下去,不断尝试和试错,最终红点就变为真正的智能体

你看下面这幅图,红点是不是很智能了,它总能找到出口,并且基本不再犯错。

e9c5a3f437499a52b9dff1a908ee9066.png

这条路径中,它只犯过这样的错误,圆圈所示,它尝试走到这里,但是发现两侧都是障碍物,无法越过,然后马上回退到上一步,并且准确走出迷宫。

cb3bcf17865c7d7527a1564cbd8020de.png

以上就是强化学习的一个基本原理介绍。

这是第一篇强化学习文章,我总结此系列文章尽量简短通俗,不去弄那种特别长,大家只收藏不学习的。

希望真正对你有启发。

你的点赞和转发,给我更新增加更大动力,感谢你的支持。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值