零基础强化学习教程（持续更新）

最新推荐文章于 2025-05-12 13:58:06 发布

Vip__Miracle

最新推荐文章于 2025-05-12 13:58:06 发布

阅读量641

点赞数

分类专栏：机器学习强化学习文章标签：强化学习机器学习

本文链接：https://blog.youkuaiyun.com/m0_51675604/article/details/121733917

版权

机器学习同时被 2 个专栏收录

15 篇文章

订阅专栏

强化学习

1 篇文章

订阅专栏

本文以通俗易懂的方式介绍了强化学习的基本概念，包括试错学习、延迟奖励和探索与利用的核心思想。强化学习通过不断试错，当机器做出正确行为时给予奖励，从而逐渐学习和优化策略。文中以小明学习围棋的故事为例子，阐述了强化学习的三层架构：主体、环境、目标，以及状态、行动、回报等关键元素，帮助读者理解这一学习模式。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

强化学习的过程记录

一.强化学习最基础的概念定义

一.强化学习最基础的概念定义

1.1 通俗非正式讲解

在本人初步的学习看来，强化学习更像是一个学会某种新东西的一个框架，一个学习规则，或者说是一种学习模式。

通过这种框架，我们可以让机器学会某些东西，说的通俗一点就是让机器不断的去试错，当碰到对的的时候，我们就给一个奖励，比如胡萝卜，证明机器你做对了，请记住你之前做过的正确步骤，这样不段的循环，就可以使得机器去学会一些东西！

1.2 强化学习的两个特点和一个核心

特点
1.Trial and ErroR 试错
2.Delayed Reward 延迟奖励（只有最后胜利了，才知道前面那些步骤是有用的，所以体现出延迟的感觉）
核心
Exploration & Exploiation 探索和利用

1.3 强化学习的三层架构

大家可能一上来看不懂这些东西，没关系，先记一个眼熟，往后的讲解你就懂了

第一层：基本元素（Basic Element）
1.主体（Agent）,环境（Environment），目标（Goal）
第二层：主要元素（Main Element）
2.状态（State），行动（Action）,回报（Reward）
第三层：核心元素(Core Element)
3.策略（Policy），价值（Value）

这三层结构是相辅相成的，并不是各自独立存在的，就如同人的脑袋，躯干，下体一样，只有这三个部位组合在一起，才能完成某些特定的任务。
强化学习整体认识

1.4通俗说明强化学习的小故事

咱们一起讲一个故事吧：
小明是一个小学生【Agent】，想学会下围棋【Goal】,在围棋棋盘【Environment】上学，和他对战教他的是小李，小李让小明先手，此时小明看着空空的棋盘【State1】棋盘上有361个空位，所以总共的状态总共有361种,小明下了一个白子放在了棋盘的右下角【Action1】此时就算行动了一步，但是小明并且有赢，所以此时反馈也就是回馈机制【Reward1=0】并没有奖励，只有小明赢得了整盘棋以后，才会奖励一些东西。循环一定次数，小明就能够学会怎么下赢围棋了。至于围棋规则，怎么做能赢的概率大就是【Policy】和【Value】，所以强化学习最难的就是核心元素【Core Element】的制定。

不知道讲完了这个故事，大家有没有宏观的明白一些强化学习的东西，怎么做，怎么实现那是后面高难度的东西，如果大家能大体知道强化学习什么意思，那就灰常好了，大家一起加油！
后续持续更新…