作者:绝密伏击,奇虎360算法资深专家
原文:https://zhuanlan.zhihu.com/p/24906803874
自 DeepSeek-R1 发布以来,迅速风靡全球,如今已晋升为国民级产品。此后,全球范围内掀起了一股复现 DeepSeek-R1 的热潮,其中不乏一些亮点纷呈的优秀项目。本文将对这些开源项目中的亮点复现工作进行汇总。
一、DeepSeek-R1 复现汇总
下面是最新的 DeepSeek-R1 复现汇总:
青稞AI
,
已结束直播,可观看回放
观看回放
结合隐式过程奖励的强化学习
接下来我们介绍下复现细节。
二、Open R1: HuggingFace 复现 DeepSeek-R1 全流程
Open R1 项目由 HuggingFace 发起,联合创始人兼 CEO Clem Delangue 是这么说的:
这个项目的目的是构建 R1 pipeline 中缺失的部分,以便所有人都能在此之上复制和构建 R1。
HuggingFace 表示,将以 DeepSeek-R1 的技术报告为指导,分 3 个步骤完成这个项目:
-
• step 1:从 DeepSeek-R1 中蒸馏高质量数据,复现 R1-Distill 模型。
-
• step 2:复现通过纯强化学习训练 R1-Zero 的过程,包括如何生成推理数据集
-
• step 3:复现训练 R1 的完整 pipeline,包括两阶段 SFT、两阶段 RL。
图1: Open R1复现DeepSeek-R1流程
2.1 step1:复现 DeepSeek-R1-Distill
利用 DeepSeek-R1 的蒸馏数据创建了 Bespoke-Stratos-17k[1]。
Bespoke-Stratos-17k 的数据构成为:
-
• APPs 和 TACO:5k
-
• NuminaMATH 数据集中的 AIME、MATH 以及 Olympiads 子集:10k
-
• STILL-2 的科学和谜题数据:1k
数据的构建方法为:
-
• 借助 Bespoke Curator (用于生成合成数据的项目) 创建了 Bespoke-Stratos-17k,利用 DeepSeek-R1 生成推理数据集,仅用了 1.5 小时和 800 美元的成本。
-
• 拒绝采样过程中,过滤掉了具有错误解决方案的推理轨迹。这对于代码验证来说是一大挑战,使用了 Ray 集群来加速验证过程。目前,HuggingFace 正致力于将代码执行验证器直接集成到 Curator。
-
• 数据过滤:使用 GPT-4o-mini 过滤错误的数学解决方案,将保留的正确解决方案的比例从 25% 提高到了 73%。
基于 Bespoke-Stratos-17k 数据训练出了 Bespoke-Stratos-32B[2] 和 Bespoke-Stratos-7B[3] 模型。
其中,Bespoke-Stratos-32B 的效果已经和 DeepSeek-R1-Distill-Qwen-32B 非常接近,如下图所示。
图2: 复现DeepSeek-R1-Distill-Qwen-32B
全新数据集:OpenR1-Math-220k
2 月 11 日,Open R1 发布了 OpenR1-Math-220k,这是一个大规模的数学推理数据集。该数据集在本地利用 512 个 H100 生成,每个问题均对应多个答案。为打造这一数据集,HuggingFace 与 Numina 合作,共同开发了备受欢迎的 NuminaMath-CoT 数据集的全新升级版。
相较于现有数据集,OpenR1-Math-220k 独具以下新特性:包含 80万 条 R1 推理轨迹,利用 DeepSeek R1 为 40万 道问题生成了两个答案,并经过筛选,最终保留了 22万 道带有正确推理轨迹的问题。
-
• 本地生成:未依赖API,而是借助 vLLM 和 SGLang 在科学集群上本地运行,每日生成 18万 条推理过程。
-
• 基于 NuminaMath 1.5:为 NuminaMath 1.5 中的问题提供答案,NuminaMath 1.5 是 NuminaMath-CoT 数据集的改进版。
-
• 自动过滤机制:运用 Math Verify 仅保留至少含有一个正确答案的问题,并利用 Llama3.3-70B-Instruct 作为判断器,以检索更多正确示例(如答案格式错误、无法使用基于规则的解析器验证的情况)。
-
• 在 OpenR1-Math-220k 上微调 Qwen-7B-Math-Instruct,其性能与 DeepSeek-Distill-Qwen-7B 相媲美。
通过结合基于规则的验证工具(Math Verify)与大语言模型(LLM)的评估方法,在保持数据集规模的同时,显著提升了其质量。最终,数据集 OpenR1-Math-220k 涵盖了 22万 个带有经过验证的推理过程的问题,每个问题可能有多个解决方案,下面是具体的分布:
图3: OpenR1-Math-220k回答个数分布
其中,仅有一个回答的样本有 36759 条,而有两个