前言
最近想开一个关于强化学习专栏,因为DeepSeek-R1很火,但本人对于LLM连门都没入。因此,只是记录一些类似的读书笔记,内容不深,大多数只是一些概念的东西,数学公式也不会太多,还望读者多多指教。本次阅读书籍为:马克西姆的《深度强化学习实践》。
限于篇幅原因,请读者首先看下历史文章:
马尔科夫过程
马尔科夫奖励过程
马尔科夫奖励过程二
RL框架Gym简介
Gym实现CartPole随机智能体
交叉熵方法数学推导
1、交叉熵方法流程图

如上图所示:模型输入为观察 s s s,而模型直接输出策略的概率分布 π ( a ∣ s ) \pi(a|s) π(a∣s),在得到概率分布后,然后从该分布中随机采样一个动作即可。
2、交叉熵算法

简单介绍下训练交叉熵算法的流程:如上图所示,
1、首先智能体在环境中生成N个片段;
2、设置一个奖励边界:比如总奖励的70%;
3、根据奖励边界过滤掉不满足的片段;
4、用剩下的精英片段来训练模型。
这里可以拿监督学习训练做下类比:上述4步完成后相当于1个epoch,而每个精英片段相当于iteration。然后不断增加epoch来更新模型。
3、交叉熵公式
在实际编写代码之前呢,先回顾下交叉熵公式:
H ( p , q ) = − [ y log ( y ^ ) + ( 1 − y ) log ( 1 − y ^ ) ] H(p, q) = -[y \log(\hat{y}) + (1 - y) \log(1 - \hat{y})] H(p,q)=−[ylog(y^)+(1−y)log(1−y^)]
其中

最低0.47元/天 解锁文章
106

被折叠的 条评论
为什么被折叠?



