零基础强化学习教程(持续更新)

本文以通俗易懂的方式介绍了强化学习的基本概念,包括试错学习、延迟奖励和探索与利用的核心思想。强化学习通过不断试错,当机器做出正确行为时给予奖励,从而逐渐学习和优化策略。文中以小明学习围棋的故事为例子,阐述了强化学习的三层架构:主体、环境、目标,以及状态、行动、回报等关键元素,帮助读者理解这一学习模式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一.强化学习最基础的概念定义

1.1 通俗非正式讲解

在本人初步的学习看来,强化学习更像是一个学会某种新东西的一个框架,一个学习规则,或者说是一种学习模式。

通过这种框架,我们可以让机器学会某些东西,说的通俗一点就是让机器不断的去试错,当碰到对的的时候,我们就给一个奖励,比如胡萝卜,证明机器你做对了,请记住你之前做过的正确步骤,这样不段的循环,就可以使得机器去学会一些东西!

1.2 强化学习的两个特点和一个核心

  • 特点
    1.Trial and ErroR 试错
    2.Delayed Reward 延迟奖励(只有最后胜利了,才知道前面那些步骤是有用的,所以体现出延迟的感觉)

  • 核心
    Exploration & Exploiation 探索和 利用

1.3 强化学习的三层架构

大家可能一上来看不懂这些东西,没关系,先记一个眼熟,往后的讲解你就懂了

  • 第一层:基本元素(Basic Element)
    1.主体(Agent),环境(Environment),目标(Goal)
  • 第二层:主要元素(Main Element)
    2.状态(State),行动(Action),回报(Reward)
  • 第三层:核心元素(Core Element)
    3.策略(Policy),价值(Value)

这三层结构是相辅相成的,并不是各自独立存在的,就如同人的脑袋,躯干,下体一样,只有这三个部位组合在一起,才能完成某些特定的任务。
强化学习整体认识

1.4通俗说明强化学习的小故事

咱们一起讲一个故事吧
小明是一个小学生【Agent】,想学会下围棋【Goal】,在围棋棋盘【Environment】上学,和他对战教他的是小李,小李让小明先手,此时小明看着空空的棋盘【State1】棋盘上有361个空位,所以总共的状态总共有361种,小明下了一个白子放在了棋盘的右下角【Action1】此时就算行动了一步,但是小明并且有赢,所以此时反馈也就是回馈机制【Reward1=0】并没有奖励,只有小明赢得了整盘棋以后,才会奖励一些东西。循环一定次数,小明就能够学会怎么下赢围棋了。至于围棋规则,怎么做能赢的概率大就是【Policy】和【Value】,所以强化学习最难的就是核心元素【Core Element】 的制定。

不知道讲完了这个故事,大家有没有宏观的明白一些强化学习的东西,怎么做,怎么实现那是后面高难度的东西,如果大家能大体知道强化学习什么意思,那就灰常好了,大家一起加油!
后续持续更新


评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Vip__Miracle

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值