自主学习
文章平均质量分 94
十铭忘
先去做,再优化
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
个人思考记录1——少样本模仿学习与分析反馈?
神经网络没有结构、没有先验、没有因果模型,所以只能。原创 2025-12-19 14:23:37 · 956 阅读 · 0 评论 -
DeepSeekMath-V2:迈向自我验证的数学推理
感觉DeepSeek/谷歌/openai基本上每次发布什么,都是在下大棋。随便看看先吧下面把 DeepSeekMath-V2 用到的「改进版 GRPO(组内对比)+ PPO」拆成两步讲:先回顾标准 PPO,再说明 GRPO 到底改了什么,以及最后把两者「混用」时的工程细节与收益概括出来。一、标准 PPO 的快速回顾采样:用当前策略 πθ 对 prompt x 生成一条回答 y,得到 r(x,y)。优势估计:靠 Critic 网络 Vφ(x) 计算 A = r − Vφ(x)(或用 GAE)。原创 2025-11-28 16:04:52 · 1234 阅读 · 1 评论
分享