文章目录
前言
最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》。
1、组成部分
强化学习其实主要包含下面五个部分:我将通过一个训练狗护食的例子来说明各部分含义。

智能体是狗,环境就是周围一切,狗当然能够观察环境,而且还能采取吃与不吃的动作。而我作为训狗师会给予其奖励揍他或者给肉。
1)当我去拿狗饭盆时,狗观察到我的手,采取了龇牙咧嘴的动作,结果奖励就是一巴掌;
2)当我去拿狗饭盆时,狗观察到我的手,采取了眼睁睁看着我拿走饭盆的动作,结果奖励它继续吃;
2、应用例子
其实上述范式在生活中到处都有应用,如下图所示:强化学习基本是很多学科的交集。

实际应用领域:国际象棋ALphaGo,DeepSeek-R1,学习成绩,大脑多巴胺系统,等等,不一而足。
3、马尔科夫奖励过程
在上一篇介绍了马尔科夫过程,核心包括有限状态空间和概率转移矩阵。而马尔科夫奖励过程则是在状态转移之间,引入了一个奖励矩阵,形状也是N*N:比如第i行第j列就表示从状态i到状态j所得到的奖励。
在引入奖励矩阵后,引入一个核心概念:回报!其数学定义为:
G t = R t + 1 + γ R t + 2 + . . . = ∑ i = 1 ∞ R t + k + 1 G_t = R_{t+1} + {\gamma}R_{t+2} + ... = \sum_{i=1}^{\infty}R_{t+k+1} Gt

最低0.47元/天 解锁文章
3173

被折叠的 条评论
为什么被折叠?



