DeepSeek刚刚发布的DeepSeek-Math-V2,在IMO 2025(2025国际奥数)和CMO 2024(2024中国奥数)上获得了金牌级分数,在Putnam 2024(2024普特南数学竞赛,难度最高的大学生数学竞赛)上获得了近乎完美的118分(满分120)。
这是AI从单纯生成答案向过程自我验证进化的关键转折。
DeepSeek-Math-V2代表了一种根本性的方法论转移:从依赖结果反馈的强化学习,走向依赖过程验证的自我反思。
在人工智能试图解决复杂逻辑问题的征途中,验证往往比生成更接近智能的本质。
要理解DeepSeek-Math-V2的突破,需先将其置于DeepSeek的技术坐标系中。
DeepSeek在开源社区的崛起并非偶然,而是基于对模型底层架构和训练效率的持续压榨。
DeepSeek-MoE架构在混合专家模型成为主流之前,就通过更细粒度的专家激活策略,找到了性能与推理成本的黄金分割点。这种对计算效率的极致追求,为后续的大规模推理奠定了基础。
DeepSeek-V2引入了多头潜在注意力机制MLA。
在长文本处理中,KV Cache(键值缓存)通常是显存杀手。MLA通过低秩键值联合压缩技术,极大地降低了这一开销。这不仅是工程上的优化,更为模型在处理长链条数学推理时保留了宝贵的上下文窗口。
算法层面,DeepSeek-Math-V1提出的GRPO算法是一个重要的里程碑。
传统的强化学习往往需要训练一个庞大的评论员模型来评估策略,资源消耗巨大。
GRPO摒弃了评论员模型,通过组相对策略优化,降低了RLHF的门槛。这一算法直接支撑了后续R1系列的诞生。
DeepSeek-R1横空出世,证明了推理能力可以通过强化学习涌现。
模型在不断的试错中,学会了自我反思和长链条推理。那种顿悟时刻的出现,标志着模型不再是简单的概率预测机,而开始具备了某种程度的思维结构。
当前大模型虽然强大,但在面对国际数学奥林匹克IMO级别的定理证明时,依然捉襟见肘。
数学证明不同于普通问答,答案正确并不代表过程严谨。DeepSeek-Math-V2正是为了跨越这一鸿沟,将焦点从结果转移到了过程的自我验证上。
结果奖励的陷阱与验证的价值
在数学推理的强化学习训练中,最直观的做法是看答案。
如果模型输出的最终数值与真值匹配,就给予奖励。这种基于结果的奖励机制在计算型问题上行之有效,但在逻辑证明题面前却显得苍白无力。
一个最典型的问题是假阳性。
模型可能通过一连串错误的逻辑推导,碰巧凑出了正确的数字。如果系统给予奖励,实际上是在鼓励模型进行错误的推理。这种奖励信号的噪声,会严重阻碍模型逻辑能力的提升。
更深层的问题在于,许多高等数学问题根本没有数值答案。
几何证明、不等式推导,其核心价值在于逻辑链条的严密性,而非最终的一个数字。对于这类问题,传统的奖励模型完全失效。
DeepSeek团队抓住了一个关键的认知规律:验证比生成容易。
人类在面对一道复杂的数学题时,可能无法立即想出解法,但通常能看懂别人的证明过程,并指出其中的逻辑漏洞。这种生成与验证之间的不对称性,正是AI进化的突破口。
DeepSeek-Math-V2的核心思想,就是构建一个能够像人类数学家一样审视证明过程的系统。
它不再满足于做对答案,而是致力于证明过程的自我验证。
DeepSeek-Math-V2的架构设计,围绕着三个核心角色展开:验证器、元验证器和生成器。这三者构成了一个精密的闭环系统。
首先是验证器的训练。
团队需要一个能对证明过程进行纠错和打分的模型。为此,他们从AoPS网站爬取了17503道高难度的数学竞赛题,重点关注那些需要证明过程的题目。
利用DeepSeek-V3.2-Exp-Thinking模型生成候选证明,再由数学专家进行人工标注。
专家不仅给出0分、0.5分或1分的最终评价,还会详细指出证明中的逻辑漏洞或缺失步骤。基于这些数据,验证器学会了输出详细的分析文本和最终评分。
训练验证器的奖励函数设计了两个目标。
一是格式奖励,强制模型按规定格式输出分析和分数。二是分数奖励,要求模型预测的分数尽可能接近专家的打分。
但在实际训练中,团队发现了一个严重的问题。
验证器为了获得分数预测准确的奖励,开始产生幻觉。
它会编造出一些不存在的错误,以此来强行压低分数,使之与低分样本匹配。这种为了猜对分数而胡编乱造的行为,破坏了验证的逻辑基础。
为了解决这一问题,DeepSeek引入了元验证器。
这是一个极具创新性的设计。
元验证器不看数学题,它的任务是审查验证器的分析报告。
它判断验证器指出的错误是否真实存在,分析逻辑是否能够支撑最终的打分。
元验证器的引入,相当于给裁判配了一个监督员。
验证器的奖励函数因此发生了变化,它不仅要打分准,还要通过元验证器的审核。
只有当分析过程有理有据时,验证器才能获得高分。这一机制将验证分析的质量评分从0.85提升到了0.96。
生成器的自我反思与诚实奖励
有了可靠的验证器,接下来的任务是训练证明生成器。
DeepSeek-Math-V2对生成器提出了更高的要求:它不仅要写出证明,还要在写完后立即输出一段自我分析。
这种设计通过奖励函数得以固化。
生成器的总奖励由外部验证和自我一致性两部分组成。
外部验证由验证器对证明质量打分。自我一致性则要求生成器对自己进行评价。
如果生成器在自我分析中诚实地承认了证明中的缺陷,元验证器会给予高分。
同时,生成器预测的自评分数需要与验证器的打分保持一致。
这意味着,模型面临一个选择:是盲目自信地提交一个有瑕疵的证明,还是诚实地指出自己的不足。
奖励系统的权重设计(Alpha为0.76,Beta为0.24)巧妙地平衡了这两者。
生成高质量证明依然是首要目标,但在证明不完美时,诚实地识别错误比掩盖错误能获得更多奖励。
这种机制极大地促进了模型的自我修正能力。
它鼓励模型在最终提交答案前,主动进行内省。
这种知之为知之,不知为不知的特性,是机器智能向人类智能靠拢的重要一步。
为了持续提升模型能力,依赖人工标注是不现实的。
DeepSeek设计了一套全自动的数据标注流程,利用算力换取数据质量。
系统对每个问题生成多个候选证明,并对每个证明生成多个验证分析。
接着,利用元验证器过滤掉那些胡编乱造的分析。最后,通过多数投票机制确定证明的质量标签。
如果多数有效的验证分析都认为某个证明有问题,该证明就被标记为低分。
如果所有尝试都无法找出有效漏洞,则标记为满分。
这套流程使得DeepSeek能够在没有人类干预的情况下,源源不断地生成高质量训练数据,驱动模型的自我迭代。
令人震撼的实验结果
DeepSeek-Math-V2在多个高难度数学基准测试中的表现,验证了这一整套方法论的有效性。
在CNML级别的题目上,DeepSeek-Math-V2在代数、几何、数论、组合和不等式五个领域全面超越了OpenAI的GPT-5-Thinking-High和DeepMind的Gemini 2.5-Pro。
更令人印象深刻的是序列化修正的能力。
面对极难的题目,单次生成往往不够。DeepSeek-Math-V2利用自我验证能力,通过多轮对话进行修正。
在IMO Shortlist 2024数据集上的实验显示,随着修正轮数的增加,单次通过率稳步上升。
模型不仅能修改答案,还能准确识别出哪一次修改是最好的。这证明了其自我评估的可靠性。
为了挑战人类数学巅峰,DeepSeek在测试阶段采用了大规模的算力扩展。
通过为每道题生成64个初始证明,并进行多轮迭代筛选,模型展现出了惊人的解题能力。
在IMO 2025中,它解决了6道题中的5道,达到金牌水平。在CMO 2024中,同样达到了金牌水平。
最震撼的成绩出现在普特南数学竞赛Putnam 2024中。这是北美顶尖本科生的数学竞赛,难度极高。DeepSeek-Math-V2解决了12道题中的11道,总分118分(满分120)。
这一成绩超过了当年所有人类参赛者的最高分90分。
这一成绩宣告了自然语言大模型在严肃数学推理领域的统治力。它不再仅仅是辅助工具,而是已经具备了超越人类顶尖选手的解题能力。
证明路线之争与迈向自我验证
DeepMind的AlphaProof选择了形式化证明的路线,使用Lean语言。
其优势在于一旦编译通过,正确性有百分之百的保证。
但形式化语言的编写极其困难,计算成本极高,且难以被普通人理解。
DeepSeek-Math-V2选择了自然语言定理证明的路线。
虽然缺乏形式化证明的绝对保证,但通过强大的自我验证机制,它将自然语言证明的严谨性提升到了前所未有的高度。
这种方式更接近人类数学家的思考和交流方式,也更容易被人类理解和采纳。
DeepSeek-Math-V2的成功向AI社区传递了清晰的信号。
在模型生成能力达到瓶颈时,提升模型的鉴赏力是突破的关键。
通过元验证确保鉴赏力的准确性,可以构建高质量的合成数据飞轮。
诚实是最好的策略。
通过奖励机制设计,鼓励模型承认自己的无知和错误,反而能激发出更强的修正和完善能力。
这种反直觉的设计,为AI的可靠性研究提供了新的思路。
测试时算力的扩展,即在推理阶段进行多轮自我博弈和验证,是解决复杂推理问题的有效途径。
这表明,除了预训练阶段的算力堆叠,推理阶段的深度思考同样重要。
DeepSeek-Math-V2不仅是一个解题高手,更是一个正在学会像科学家一样严谨思考、自我诘问的数字智能雏形。
在通往通用人工智能的道路上,这种自我验证的能力,或许比单纯的知识广度更为关键。
我们看到的,是一个不再盲目自信,而是懂得自省、懂得求证的理性机器的诞生。
参考资料:
https://github.com/deepseek-ai/DeepSeek-Math-V2/
https://huggingface.co/deepseek-ai/DeepSeek-Math-V2
END
865

被折叠的 条评论
为什么被折叠?



