Open R1由huggingface出品,当前最火的DeepSeek-R1全开源复现,已经18.8k了,这两天该项目发布了最新进展:
-
开源了包含由 DeepSeek R1生成的用于数学推理的全新大规模数据集OpenR1 -220k-Math
-
合成数据处理技术细节
-
汇总开源社在R1技术上的探索:Unsloth、李飞飞s1、AIME 2025等等
社区已经发布了多个开放数据集,包括OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1和LIMO。
🐳 推出 OpenR1-Math-220k ,这是一个在 512 个 H100 上本地生成的大规模数学推理数据集,每个问题有多个答案。为了创建 OpenR1-Math-220k,与Numina合作,他们开发了其广受欢迎的NuminaMath-CoT数据集的全新版本。
与现有数据集相比,OpenR1 数据集有哪些新内容:
-
800k R1 推理轨迹:使用DeepSeek R1为 400k 个问题生成两个答案。过滤后的数据集包含220k 个具有正确推理轨迹的问题。
-
512 个 H100 在本地运行:不依赖 API,而是利用vLLM和SGLang在科学集群上本地运行生成,每天生成 180k 条推理痕迹。
-
基于NuminaMath 1.5:专注于数学推理痕迹并为 NuminaMath 1.5 (NuminaMath-CoT数据集的改进版本)中的问题生成答案。
-
自动过滤:应用数学验证来仅保留至少有一个正确答案的问题。还利用Llama3.3-70B-Instruct作为判断器来检索更多正确的示例(例如,对于无法使用基于规则的解析器验证的格式错误的答案的情况)