一文汇总 DeepSeek R1 模型最新复现进展

作者:绝密伏击,奇虎360算法资深专家

原文:https://zhuanlan.zhihu.com/p/24906803874
 


自 DeepSeek-R1 发布以来,迅速风靡全球,如今已晋升为国民级产品。此后,全球范围内掀起了一股复现 DeepSeek-R1 的热潮,其中不乏一些亮点纷呈的优秀项目。本文将对这些开源项目中的亮点复现工作进行汇总。

一、DeepSeek-R1 复现汇总

下面是最新的 DeepSeek-R1 复现汇总:

图片

青稞AI

已结束直播,可观看回放

观看回放

结合隐式过程奖励的强化学习

 

接下来我们介绍下复现细节。

二、Open R1: HuggingFace 复现 DeepSeek-R1 全流程

Open R1 项目由 HuggingFace 发起,联合创始人兼 CEO Clem Delangue 是这么说的:

这个项目的目的是构建 R1 pipeline 中缺失的部分,以便所有人都能在此之上复制和构建 R1。

HuggingFace 表示,将以 DeepSeek-R1 的技术报告为指导,分 3 个步骤完成这个项目:

  • • step 1:从 DeepSeek-R1 中蒸馏高质量数据,复现 R1-Distill 模型。

  • • step 2:复现通过纯强化学习训练 R1-Zero 的过程,包括如何生成推理数据集

  • • step 3:复现训练 R1 的完整 pipeline,包括两阶段 SFT、两阶段 RL。

图1: Open R1复现DeepSeek-R1流程

图1: Open R1复现DeepSeek-R1流程

2.1 step1:复现 DeepSeek-R1-Distill

利用 DeepSeek-R1 的蒸馏数据创建了 Bespoke-Stratos-17k[1]。

Bespoke-Stratos-17k 的数据构成为:

  • • APPs 和 TACO:5k

  • • NuminaMATH 数据集中的 AIME、MATH 以及 Olympiads 子集:10k

  • • STILL-2 的科学和谜题数据:1k

数据的构建方法为:

  • • 借助 Bespoke Curator (用于生成合成数据的项目) 创建了 Bespoke-Stratos-17k,利用 DeepSeek-R1 生成推理数据集,仅用了 1.5 小时和 800 美元的成本。

  • • 拒绝采样过程中,过滤掉了具有错误解决方案的推理轨迹。这对于代码验证来说是一大挑战,使用了 Ray 集群来加速验证过程。目前,HuggingFace 正致力于将代码执行验证器直接集成到 Curator。

  • • 数据过滤:使用 GPT-4o-mini 过滤错误的数学解决方案,将保留的正确解决方案的比例从 25% 提高到了 73%。

基于 Bespoke-Stratos-17k 数据训练出了 Bespoke-Stratos-32B[2] 和 Bespoke-Stratos-7B[3] 模型。

其中,Bespoke-Stratos-32B 的效果已经和 DeepSeek-R1-Distill-Qwen-32B 非常接近,如下图所示。

图2: 复现DeepSeek-R1-Distill-Qwen-32B

图2: 复现DeepSeek-R1-Distill-Qwen-32B

全新数据集:OpenR1-Math-220k

2 月 11 日,Open R1 发布了 OpenR1-Math-220k,这是一个大规模的数学推理数据集。该数据集在本地利用 512 个 H100 生成,每个问题均对应多个答案。为打造这一数据集,HuggingFace 与 Numina 合作,共同开发了备受欢迎的 NuminaMath-CoT 数据集的全新升级版。

相较于现有数据集,OpenR1-Math-220k 独具以下新特性:包含 80万 条 R1 推理轨迹,利用 DeepSeek R1 为 40万 道问题生成了两个答案,并经过筛选,最终保留了 22万 道带有正确推理轨迹的问题。

  • • 本地生成:未依赖API,而是借助 vLLM 和 SGLang 在科学集群上本地运行,每日生成 18万 条推理过程。

  • • 基于 NuminaMath 1.5:为 NuminaMath 1.5 中的问题提供答案,NuminaMath 1.5 是 NuminaMath-CoT 数据集的改进版。

  • • 自动过滤机制:运用 Math Verify 仅保留至少含有一个正确答案的问题,并利用 Llama3.3-70B-Instruct 作为判断器,以检索更多正确示例(如答案格式错误、无法使用基于规则的解析器验证的情况)。

  • • 在 OpenR1-Math-220k 上微调 Qwen-7B-Math-Instruct,其性能与 DeepSeek-Distill-Qwen-7B 相媲美

通过结合基于规则的验证工具(Math Verify)与大语言模型(LLM)的评估方法,在保持数据集规模的同时,显著提升了其质量。最终,数据集 OpenR1-Math-220k 涵盖了 22万 个带有经过验证的推理过程的问题,每个问题可能有多个解决方案,下面是具体的分布:

图3: OpenR1-Math-220k回答个数分布

图3: OpenR1-Math-220k回答个数分布

其中,仅有一个回答的样本有 36759 条,而有两个

### DeepSeek-R1 本地部署教程 快速上手指南 #### 环境准备 为了确保顺利安装和运行,建议先确认计算机满足最低硬件要求,并已安装必要的软件依赖项。这通常包括 Python 版本兼容性和其他开发工具包。 #### 步骤一:获取源码或镜像文件 可以从官方渠道下载最新DeepSeek-R1 发布版本或者 Docker 镜像。对于大多数用户来说,使用预构建的 Docker 镜像是最简单的方式[^1]。 ```bash docker pull deepseekai/deepseek-r1:latest ``` #### 步骤二:初始化配置 启动容器前需创建并编辑配置文件 `config.yaml` 来指定数据路径和其他参数设置。此步骤允许自定义存储位置以及调整性能选项以适应具体应用场景的需求[^2]。 ```yaml data_path: "/path/to/data" log_level: "INFO" ... ``` #### 步骤三:启动服务 一切就绪之后就可以通过命令行来启动 DeepSeek-R1 的实例了。如果选择了 Docker 方式,则可以利用如下指令: ```bash docker run --name=deepseek-r1 -v /local/path:/container/path -p 8080:8080 deepseekai/deepseek-r1 ``` 上述命令会映射端口并将主机目录挂载至容器内以便访问外部资源。此时应该能够通过浏览器或其他 HTTP 客户端连接到正在监听的服务接口地址 http://localhost:8080/ 进行交互测试。 一旦完成了这些基本设定,便可以根据实际业务逻辑进一步探索更多高级特性的应用可能性,比如集成第三方 API 或者训练定制化模型等。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值