
跟无神学大模型
文章平均质量分 63
竹杖芒鞋序行
专攻AI相关内容,目前聚焦于大模型相关技术。
黑暗学渣硕一枚。
欢迎关注博主一起学习AI领域的相关知识,不定期会进行论文解读和算法题整理以及算法的核心面经总结。
也曾有一天,你屹立世界之巅,为大千宇宙中最闪亮的星,世界再无阴霾,阳光明媚。
展开
-
论文解读之DAPO: An Open-Source LLM Reinforcement Learning System at Scale
DAPO在公开的数学数据集上做对于GRPO算法加入了一些改进,以很少的训练步数达到了R1蒸馏的qwen32B的性能:对GRPO加入以下改进,以解决GRPO实际中的熵崩溃、奖励噪声和训练不稳定性:1.将GRPO中的裁剪上限提高,鼓励模型探索(当上线过低时,模型出现较大的采样比时不会梯度反传)2.动态采样3.token级别的策略梯度损失4.过长奖励惩罚用verl框架进行了该训练方法的实现。原创 2025-04-14 20:37:46 · 282 阅读 · 0 评论 -
论文解读之Deepseek V3
1.从专业模型的推理模型(R1)蒸馏数据比从短CoT中训练的V2.5效果更好2.自反馈可以提升表现3.多token预测可加快解码速度。原创 2025-03-04 10:03:53 · 725 阅读 · 0 评论 -
强化学习笔记之引论
以上对奖励的梯度上升很直觉,即根据奖励的正负,决定对当前状态采取当前行动的一个方向,奖励为正,向该行动概率增加的方向优化参数;模型参数为前提的条件概率为,初始状态的概率*根据状态和参数采取行动1的概率*根据行动、状态1转换成状态2,奖励值1的概率...强化学习过程中奖励是一个偏好模型或者基于规则的奖励,跟模型参数无关;设置基线的策略:critic,评论家,以计算优势函数,评判actor的动作好的程度,也就是PPO算法中的价值模型。同时,乘的又是整个轨迹发生的reward,即最终的奖励。原创 2025-02-19 00:24:42 · 286 阅读 · 0 评论