Open R1放出220k高质量DeepSeek R1数据及处理技术细节，冲～

最新推荐文章于 2025-04-29 18:41:57 发布

原创

最新推荐文章于 2025-04-29 18:41:57 发布 · 2.1k 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #机器学习 #deepseek

Open R1由huggingface出品，当前最火的DeepSeek-R1全开源复现，已经18.8k了，这两天该项目发布了最新进展：

开源了包含由 DeepSeek R1生成的用于数学推理的全新大规模数据集OpenR1 -220k-Math

合成数据处理技术细节
汇总开源社在R1技术上的探索：Unsloth、李飞飞s1、AIME 2025等等

社区已经发布了多个开放数据集，包括OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1和LIMO。

🐳 推出 OpenR1-Math-220k ，这是一个在 512 个 H100 上本地生成的大规模数学推理数据集，每个问题有多个答案。为了创建 OpenR1-Math-220k，与Numina合作，他们开发了其广受欢迎的NuminaMath-CoT数据集的全新版本。

与现有数据集相比，OpenR1 数据集有哪些新内容：

800k R1 推理轨迹：使用DeepSeek R1为 400k 个问题生成两个答案。过滤后的数据集包含220k 个具有正确推理轨迹的问题。
512 个 H100 在本地运行：不依赖 API，而是利用vLLM和SGLang在科学集群上本地运行生成，每天生成 180

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

AIBigModel

关注关注

18
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

LLM - 大模型构建 Reasoning 推理数据集(OpenR1-Math-220k) 教程

AGI

03-07

1221

使用蒸馏的推理(Reasoning)数据集，进行模型微调(SFT)，即使不使用强化学习(RL)，也可以提升大模型的效果。因此，构建合适的推理数据集，就可以训练不同的高性能推理模型。

【大模型训练】用LLAMA_FACTORY复现deepseek-r1的蒸馏过程

andeyeluguo的博客

02-13

823

2. 从链接https://huggingface.co/datasets/open-r1/OpenR1-Math-220k/则可以从本机的服务器中根据ip直接访问 http://192.168.100.100（服务器地址）:11111（开放端口）中下载parquet文件全部放到OpenR1-Math-220k文件夹中。1. data文件中新建OpenR1-Math-220k文件夹。dataset_info.json中新增。4. 启动LLAMA_FACTORY。如果11111是开放的端口，

参与评论您还未登录，请先登录后发表或查看评论

首个DeepSeek-R1全开源复现Open-R1来了

m0_63171455的博客

01-27

5751

huggingface出品，，短短一天已经冲上1.9k Star，这个仓库仍在建设中。的目标是构建流程中缺失的部分，以便每个人都可以复现并在此基础上进行开发。项目设计简单，主要包含以下内容：src/open_r1 包含用于训练和评估模型以及生成合成数据的脚本：grpo.py：使用GRPO在给定数据集上训练模型。sft.py：在数据集上对模型进行简单的SFT（监督微调）。evaluate.py：在R1基准测试上评估模型。generate.py：使用Distilabel从模型生成合成数据。

Open R1：全球最火爆的DeepSeek R1全开源复现项目（GitHub 19.5k星）

star_nwe的博客

02-14

1409

OpenAI 的 o1 模型展示了，当大型语言模型（LLM）在推理时使用更多计算资源时，它们在解决数学、编程和逻辑推理任务时的表现会显著提高。然而，OpenAI 推理模型背后的训练方法一直是一个保密的内容。DeepSeek-R1 是迄今为止第一个在表现上与 o1 相当甚至更好的开源推理模型（Reasoning LLM）。DeepSeek-R1 详细的技术报告，阐明了其训练方法的关键步骤。这个训练方法包含了几项创新，最引人注目的是。

一文汇总 DeepSeek R1 模型最新复现进展

m0_48891301的博客

02-21

1911

自 DeepSeek-R1 发布以来，迅速风靡全球，如今已晋升为国民级产品。此后，全球范围内掀起了一股复现 DeepSeek-R1 的热潮，其中不乏一些亮点纷呈的优秀项目。本文将对这些开源项目中的亮点复现工作进行汇总。

从ReFT, Kimi K1.5到DeepSeek R1，聊聊Reasoning Model的精巧实现

AIBigModel的博客

02-16

1223

Offline-ST 采样模型直接使用初始模型，而 Online-ST 采样模型是随着 Policy 模型的更新实时更新的，导致 Online 的方式可能使模型的分布大大偏离原始模型的分布。最终用这 800K 样本 SFT DeepSeek-V3-base 模型，产出了 Reasoning 和非 Reasoning 能力兼顾的新的模型（注：这里并没有基于上个阶段的模型继续微调，而是在基模上微调的，主要是为了保证更好的通用能力，然后进一步通过过滤后的样本继续微调，保留refine后的推理能力）。

单卡4090上部署的DeepSeek-R1小模型的并发性能评测

weixin_53138109的博客

04-01

2078

网上找了一圈性能评测工具，很多都要自己把模型拉起来，还动不动就想去HuggingFace下载，都不太好用。考虑到目前不管是开源还是闭源，各大模型的推理服务，基本都遵循 OpenAI 的 API 接口。所以针对该接口编写一个简单的脚本，应该即可评测各种模型的性能了。这种任务，对于我这种20多年的老码农来说，当然要用AI帮忙了：）因此用AI生成了一个初始版本，调试了1个多小时可以跑通了。但是结果数据有问题，隐藏的一个逻辑错误，OpenAI 和 DeepSeek 都没发现。

阿里Qwen3模型彻底爆发！力挫OpenAI、DeepSeek，登顶全球开源模型王座

Code_流苏：在代码中寻诗意，在实践中觅真知

04-29

1519

阿里Qwen3彻底爆发！力挫OpenAI、DeepSeek，登顶全球开源模型王座

阿里开源通义千问3，性能力压DeepSeek，成本仅需三分之一！

最新发布

互联网架构师笔记

04-29

489

记住，开源不是落后者自救，是领先者亮剑。未来，国产大模型的胜负手，一定还在路上。但今晚，属于阿里，也属于所有愿意相信技术力量的人。

首个DeepSeek-R1开源复现：Open-R1正式亮相

m0_65555479的博客

01-31

4418

Open-R1 由 huggingface 打造，旨在构建 DeepSeek-R1 流程中缺失的部分，让开发者能够复现并基于其进行二次开发。src/open_r1 文件夹：包含用于训练和评估模型以及生成合成数据的脚本。grpo.py负责运用 GRPO 算法在特定数据集上训练模型；sft.py用于执行模型的监督微调（SFT）；对模型进行 R1 基准测试评估；借助 Distilabel 从模型生成合成数据。Makefile：整合了 R1 流程各步骤的便捷运行命令，这些命令依托上述脚本，极大地简化了开发流程。

DeepSeek-R1复现方案解读之「Open-R1」

2401_85390073的博客

02-05

3879

整体grpo原理如下：‍分组采样：对每个问题，从旧策略中采样一组输出（组大小比如为16或64）。优势计算：对每个输出，计算标准化优势值：其中是输出的奖励，优势值通过组内标准化消除全局奖励偏差。目标函数：最大化以下目标，同时约束策略与参考策略的KL散度：其中控制策略更新的幅度，调节KL散度惩罚项。奖励函数的设计与应用在模型训练过程中，奖励函数扮演着至关重要的角色，它们指导模型如何优化其行为以适应特定的任务需求。重要性。

MTP——我对DeepSeek V3中多token预测MTP的代码实现(含对V3官方MoE、MLA推理代码的解读)

结构之法算法之道

02-13

8708

虽然我司从23年起，便逐步从教育为主转型到了科技为主，但不代表教育业务便没有了随着DeepSeek特别是R1、其次V3模型的大火，我司七月在线的大模型线上营群里一学员朋友DIFY问道：校长好，deepseek 的课程目前有多少内容啦，我想要参与学习，想请问一下关于v3和r1复现的课程有吗，不用那么大参数量，小尺寸就好实话讲，我一开始确实没咋重点考虑R1和V3复现的问题，一来，想着毕竟人家开源了，二来，即便有诸如Open R1这种复现，但效果和原装的相比还是差太多但后来有三点改变了我的看法。

R1-Zero与R1的复现之路——从Open-Reasoner-Zero到Open R1：先后涉及规则奖励下的PPO迭代，及SFT+GRPO的复现

结构之法算法之道

02-17

8006

根据R1的GitHub可知可以看到，R1并未开源关键的训练数据和训练代码，好在如此文《复现DeepSeek V3——在V3官方代码库对MoE、MLA的推理代码之外，补充我对多token预测MTP训练代码的实现》所说，有个Open R1的开源项目，本文便基于Open R1复现正式版的R1以下是本文的编写过程。

覆盖数学/代码/科学/谜题，高质量推理数据集汇总，助力复现DeepSeek超强推理能力

HyperAI超神经

02-28

1375

Dolphin-R1 推理数据集包含约 80 万个样本，数据来源包括 DeepSeek-R1、Gemini Flash 以及 Dolphin Chat 提供的 20 万个样本，旨在为训练类似 DeepSeek-R1 的推理模型提供高质量的样本。LIMO 数学推理基准数据集仅包含了 817 个高质量数学推理样本，旨在通过精心挑选高质量的训练样本，训练和评估大模型的数学推理能力，该数据集主要用于训练大模型的数学解题能力，提升其在数学考试、竞赛题目（如 AIME、MATH-500 等）上的表现。

Open-R1：Deepseek-R1复现项目（包含SFT阶段、GRPO阶段代码详解）

sherlockMa的博客

02-07

9896

DeepSeek-R1的意义在于其通过创新的训练方法和技术突破，为大型语言模型（LLMs）在推理能力、训练效率和成本控制等方面树立了新的标杆。其采用的多阶段训练策略，结合冷启动数据微调、强化学习（RL）和监督微调（SFT），不仅显著提升了模型在复杂推理任务中的表现，还解决了传统单阶段训练方法难以克服的挑战。DeepSeek-R1的训练过程证明了强化学习可以有效提升模型的推理能力，同时其创新的GRPO算法大幅降低了训练成本，使得高性能推理模型的开发更加高效和经济。

【HuggingFace项目】：Open-R1 - DeepSeek-R1 大模型开源复现计划

yanqianglifei的专栏

01-26

4924

Open-R1 是由 HuggingFace 发布的一个完全开放的项目，旨在通过三个主要步骤复现 DeepSeek-R1 的完整训练流程。这个项目的目标是让更多人能够理解和使用 DeepSeek-R1 的技术方案，从而推动大模型技术的发展和应用。Open-R1 项目通过开源的方式，详细展示了如何从知识蒸馏到强化学习，再到多阶段训练，逐步复现 DeepSeek-R1 的训练流程。这不仅为研究人员提供了宝贵的技术参考，也为大模型的普及和应用奠定了坚实的基础。

【LLM】O1/R1系列LLM数据篇

发现问题，并解决问题，批判性思维

02-09

1801

关于思维链推理的10开源数据集：目前开源的数据主要有如下： 1、Magpie-Reasoning-V2数据集，其中包含DeepSeek-R1生成的250K思路链推理样本，这些示例涵盖了数学推理、编码和一般问题解决等各种任务。https://huggingface.co/datasets/Magpie-Align/Magpie-Reasoning-V2-250K-CoT-Deepseek-R1-Llama-70B 2、Dolphin-R1，包含80万个样本的数据集，其中的数据来自DeepSeek-R1和

聊聊DeepSeek R1的开源复现库——Open R1之合成数据

Code1994的博客

02-11

1128

DeepSeek系列模型简介：DeepSeek-R1 的技术突破主要体现在两个方面：首先，它使用纯强化学习来教导基础语言模型进行推理，无需人工监督；其次，它采用了创新的技术来提升训练效率。这些突破使得构建强大的推理模型变得更加简单，只需要一个优秀的基础模型和高质量的数据集。从我个人的分析角度来说，可以概括总结为：程序 = 数据工程 + 算法。程序：DeepSeek-R1数据：训练数据（预训练文本数据、SFT数据、CoT数据）算法：RL算法（GPRO算法）

配置Open-R1，评测DeepSeek第三方蒸馏模型的推理性能2

clhmw的专栏

02-16

982

后面还得再check一遍。模型的话，因为之前介绍提到的，已经下载并测试了一般问题回答，因此，直接传到这个机器，修改模型路径MODEL即可。再加上，现在知乎、微信等等都接入了DeepSeek，当然这俩都是做的RAG，利用自己的数据，从回答上能明显看出来。接下来，用LM Studio试试其他模型，比如llava，Mistral，Janus，Qwen2.5/-Instruct/-VL。还好，失败了没有恼羞成怒的删了env和代码，赶紧打包放到这台机器上，改了几个路径问题，激活环境，调用torch和vllm都可以。