论文总结与翻译
一、主要内容
该论文针对大型语言模型(LLMs)在数学推理中依赖“最终答案奖励”的局限性,提出了以“可自我验证的数学推理”为核心的DeepSeekMath-V2模型,具体内容如下:
- 问题背景:传统强化学习(RL)方法通过奖励正确最终答案优化模型,虽能在AIME等量化竞赛中饱和性能,但存在两大缺陷:一是正确答案不代表推理过程严谨(可能通过错误逻辑或幸运误差得到);二是不适用于定理证明等需逐步推导、无明确数值答案的任务,且模型易生成逻辑不一致的证明,验证能力薄弱。
- 核心框架:构建“生成器-验证器-元验证器”的协同体系,形成迭代优化循环:
- 验证器(Verifier):按评分准则评估证明质量(0/0.5/1分),识别推理缺陷,作为生成器的奖励模型;
- 元验证器(Meta-Verifier):校验验证器识别的缺陷是否真实存在、评分是否合理,减少验证器的“幻觉缺陷”;
- 生成器(Generator):在训练中需生成证明并进行自我分析,结合验证器和元验证器的反馈迭代优化,激励真实识别自身错误。
- 关键方法:
- 冷启动数据构建:从AoPS竞赛爬取17,503道需证明的题目,生成候选证明并经专家标注形成初始数据集;
- 强化学习目标:验证器和元验证器的训练包含格式奖励(确保输出规范)和评分奖励(贴近专家标注);生成器奖励结合证明质量与自我评估准确性;
DeepSeekMath-V2:自验证数学推理

订阅专栏 解锁全文
300

被折叠的 条评论
为什么被折叠?



