一文汇总 DeepSeek R1 模型最新复现进展

最新推荐文章于 2025-04-10 10:35:34 发布

原创

最新推荐文章于 2025-04-10 10:35:34 发布 · 1k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #deepseek

作者：绝密伏击,奇虎360算法资深专家

原文：https://zhuanlan.zhihu.com/p/24906803874

自 DeepSeek-R1 发布以来，迅速风靡全球，如今已晋升为国民级产品。此后，全球范围内掀起了一股复现 DeepSeek-R1 的热潮，其中不乏一些亮点纷呈的优秀项目。本文将对这些开源项目中的亮点复现工作进行汇总。

一、DeepSeek-R1 复现汇总

下面是最新的 DeepSeek-R1 复现汇总：

青稞AI

，

已结束直播，可观看回放

观看回放

结合隐式过程奖励的强化学习

接下来我们介绍下复现细节。

二、Open R1: HuggingFace 复现 DeepSeek-R1 全流程

Open R1 项目由 HuggingFace 发起，联合创始人兼 CEO Clem Delangue 是这么说的：

这个项目的目的是构建 R1 pipeline 中缺失的部分，以便所有人都能在此之上复制和构建 R1。

HuggingFace 表示，将以 DeepSeek-R1 的技术报告为指导，分 3 个步骤完成这个项目：

• step 1：从 DeepSeek-R1 中蒸馏高质量数据，复现 R1-Distill 模型。
• step 2：复现通过纯强化学习训练 R1-Zero 的过程，包括如何生成推理数据集
• step 3：复现训练 R1 的完整 pipeline，包括两阶段 SFT、两阶段 RL。

图1: Open R1复现DeepSeek-R1流程

2.1 step1：复现 DeepSeek-R1-Distill

利用 DeepSeek-R1 的蒸馏数据创建了 Bespoke-Stratos-17k[1]。

Bespoke-Stratos-17k 的数据构成为：

• APPs 和 TACO：5k
• NuminaMATH 数据集中的 AIME、MATH 以及 Olympiads 子集：10k
• STILL-2 的科学和谜题数据：1k

数据的构建方法为：

• 借助 Bespoke Curator (用于生成合成数据的项目) 创建了 Bespoke-Stratos-17k，利用 DeepSeek-R1 生成推理数据集，仅用了 1.5 小时和 800 美元的成本。
• 拒绝采样过程中，过滤掉了具有错误解决方案的推理轨迹。这对于代码验证来说是一大挑战，使用了 Ray 集群来加速验证过程。目前，HuggingFace 正致力于将代码执行验证器直接集成到 Curator。
• 数据过滤：使用 GPT-4o-mini 过滤错误的数学解决方案，将保留的正确解决方案的比例从 25% 提高到了 73%。

基于 Bespoke-Stratos-17k 数据训练出了 Bespoke-Stratos-32B[2] 和 Bespoke-Stratos-7B[3] 模型。

其中，Bespoke-Stratos-32B 的效果已经和 DeepSeek-R1-Distill-Qwen-32B 非常接近，如下图所示。

图2: 复现DeepSeek-R1-Distill-Qwen-32B

全新数据集：OpenR1-Math-220k

2 月 11 日，Open R1 发布了 OpenR1-Math-220k，这是一个大规模的数学推理数据集。该数据集在本地利用 512 个 H100 生成，每个问题均对应多个答案。为打造这一数据集，HuggingFace 与 Numina 合作，共同开发了备受欢迎的 NuminaMath-CoT 数据集的全新升级版。

相较于现有数据集，OpenR1-Math-220k 独具以下新特性：包含 80万 条 R1 推理轨迹，利用 DeepSeek R1 为 40万 道问题生成了两个答案，并经过筛选，最终保留了 22万 道带有正确推理轨迹的问题。

• 本地生成：未依赖API，而是借助 vLLM 和 SGLang 在科学集群上本地运行，每日生成 18万条推理过程。
• 基于 NuminaMath 1.5：为 NuminaMath 1.5 中的问题提供答案，NuminaMath 1.5 是 NuminaMath-CoT 数据集的改进版。
• 自动过滤机制：运用 Math Verify 仅保留至少含有一个正确答案的问题，并利用 Llama3.3-70B-Instruct 作为判断器，以检索更多正确示例（如答案格式错误、无法使用基于规则的解析器验证的情况）。
• 在 OpenR1-Math-220k 上微调 Qwen-7B-Math-Instruct，其性能与 DeepSeek-Distill-Qwen-7B 相媲美。

通过结合基于规则的验证工具（Math Verify）与大语言模型（LLM）的评估方法，在保持数据集规模的同时，显著提升了其质量。最终，数据集 OpenR1-Math-220k 涵盖了 22万个带有经过验证的推理过程的问题，每个问题可能有多个解决方案，下面是具体的分布：