前言
最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》。
限于篇幅原因,请读者首先看下历史文章:
马尔科夫过程
马尔科夫奖励过程
马尔科夫奖励过程二
RL框架Gym简介
Gym实现CartPole随机智能体
交叉熵方法数学推导
强化学习入门:交叉熵方法实现CartPole智能体
1、出发点
原定本篇博客该介绍bellman方程的,但发现自己对于一些基础概念的计算和理解有点儿模糊,于是本篇先恶补一下目前RL所出现的一些基础概念,并搭配详细的计算公式。
2、示例

这里以书中一个例子来说明一些概念,在上图中,每个灰色节点表示状态,每条边上实线圆表示状态转移概率,每个虚线圆则表示状态转移所获得的奖励。
下面将举个视为片段的例子,在RL中也被称为“状态链”。
片段:家–> 咖啡 --> 计算机 --> 家。
在引入了片段后,就能解释何为“回报”定义了:
这里先贴下回报公式,对于一个片段来说,在 t t t时刻的回报定义为:
G t = R t + 1 + γ R t + 2 + . . . = ∑ k = 0 ∞ γ k R t + k + 1 G_t = R_{t+1} + \gamma R_{t+2} +... = \sum_{k=0}^{\infty}\gamma^kR_{t+k+1} Gt=Rt+1+γR

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



