白话文学强化学习-1

本文以巴甫洛夫的狗为例,生动解释强化学习的概念。强化学习通过奖励和惩罚机制,让计算机学会在特定环境中采取最佳行动。基本要素包括State(状态)、Action(动作)和Reward(奖励)。文中还探讨了强化学习在游戏和炒股等领域的应用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

强化学习介绍

强化学习(reinforcement learning),又称再励学习、评价学习,是一种重要的机器学习方法,在智能控制机器人及分析预测等领域有许多应用。

强化学习用人话来解释的话,假设CV(计算机视觉)和NLP(自然语言处理)是教会计算机如何看和听这个世界的话,那RL(强化学习)则是教会计算机如何思考这个世界了。这里要拿出被举的最多的例子了:

巴甫洛夫的狗

强化学习的过程和训狗很像的,没有训练过的狗狗是不会听到训犬师说坐下就理解并马上坐下的,所以需要一个训练的过程:通常是训犬师发出坐下的命令,然后可能狗狗会随便做一些动作也可以是在训犬师帮助下它完成坐下的动作,并且在狗狗完成后坐下的动作后给予奖励,比如喂点狗狗的零食什么的,并且不断重复这个过程,狗狗做对了就给奖励,没做对什么也不给(或者可以给点小小的惩罚)。出于对食物零食的渴望,狗狗慢慢就学习到了训犬师说出坐下的命令和自己坐下以及得到食物的奖励这三者的关系,时间久了狗狗也就会听从训犬师的坐下命令了。不单单是坐下的命令,其他的动作也可以用这种奖励惩罚的规则进行训练,但是不要殴打我们可爱的狗狗哦~

经典的S、A、R

学习强化学习是离不开这3个字母的,分别是State状态或者环境,Action动作,Reward奖励。对于上面的训狗例子这3个分别对应:S 训犬师的指令,A 狗狗选择的动作, R 奖励或者惩罚。
所以流程是这样的,首先由训犬师给出当前的S(指令),狗狗选择一个动作A(可以是坐下也可以是其他的动作),训犬师根据狗狗当前选择的动给狗狗一定的R(如果做对了就给 食物 即正面奖励,如果没做对就 打屁屁 即负面奖励)
S-A-R
网上找的图
在这里插入图片描述
强化学习还有一大应用场景就是玩游戏,这里可以想象我们的游戏玩家当接触到一款新游戏的

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值