跟无神学大模型强化学习
众人(某音、某书同名)
专攻AI相关内容,目前聚焦于大模型相关技术。
黑暗学渣硕一枚。
欢迎关注博主一起学习AI领域的相关知识,不定期会进行论文解读和算法题整理以及算法的核心面经总结。
也曾有一天,你屹立世界之巅,为大千宇宙中最闪亮的星,世界再无阴霾,阳光明媚。
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
论文解读之优势函数GAE(GENERALIZED ADVANTAGE ESTIMATION)
在强化学习中,优势函数(Advantage Function)用来评估在某个状态下采取某个动作相比平均情况下的好坏,这对于策略更新非常重要。GAE(Generalized Advantage Estimation)是一种估计优势函数的方法,由Schulman等人提出,结合了TD残差(Temporal Difference Residual)和不同步长的优势估计,通过引入一个调节参数λ来平衡偏差和方差。接下来,GAE的定义和公式。GAE的基本思想是将多个不同步长的优势估计进行指数加权平均。原创 2025-06-19 16:58:31 · 624 阅读 · 0 评论 -
论文解读之DAPO: An Open-Source LLM Reinforcement Learning System at Scale
DAPO在公开的数学数据集上做对于GRPO算法加入了一些改进,以很少的训练步数达到了R1蒸馏的qwen32B的性能:对GRPO加入以下改进,以解决GRPO实际中的熵崩溃、奖励噪声和训练不稳定性:1.将GRPO中的裁剪上限提高,鼓励模型探索(当上线过低时,模型出现较大的采样比时不会梯度反传)2.动态采样3.token级别的策略梯度损失4.过长奖励惩罚用verl框架进行了该训练方法的实现。原创 2025-04-14 20:37:46 · 727 阅读 · 0 评论 -
强化学习笔记之策略梯度
从分类任务的cross entropy出发,其本质也相当于最大化给定当前观测的状态(特征),输出相应的标签,即采取正确的动作的几率。模型采样出特定轨迹的概率等于出现状态1的概率与模型在s1的前提下采取动作1的概率再乘环境在此动作下从s1转换为s2的概率...根据引论中的梯度推导,优化的目标相当于在平常的分类任务中加了一个奖励作为权重,从s1开始,不断从策略模型中采样,得到所有动作的奖励,计算奖励的期望值。要做对奖励的期望的梯度上升,使得模型的参数向使得奖励高的方向改变。原创 2025-06-12 14:41:06 · 245 阅读 · 0 评论
分享