Open R1放出220k高质量DeepSeek R1数据及处理技术细节,冲~

Open R1由huggingface出品,当前最火的DeepSeek-R1全开源复现,已经18.8k了,这两天该项目发布了最新进展:

  • 开源了包含由 DeepSeek R1生成的用于数学推理的全新大规模数据集OpenR1 -220k-Math

图片

  • 合成数据处理技术细节

  • 汇总开源社在R1技术上的探索:Unsloth、李飞飞s1、AIME 2025等等

图片

社区已经发布了多个开放数据集,包括OpenThoughts-114k、Bespoke-Stratos-17k、Dolphin-R1和LIMO。

🐳 推出 OpenR1-Math-220k ,这是一个在 512 个 H100 上本地生成的大规模数学推理数据集,每个问题有多个答案。为了创建 OpenR1-Math-220k,与Numina合作,他们开发了其广受欢迎的NuminaMath-CoT数据集的全新版本。

与现有数据集相比,OpenR1 数据集有哪些新内容:

  • 800k R1 推理轨迹:使用DeepSeek R1为 400k 个问题生成两个答案。过滤后的数据集包含220k 个具有正确推理轨迹的问题。

  • 512 个 H100 在本地运行:不依赖 API,而是利用vLLM和SGLang在科学集群上本地运行生成,每天生成 180k 条推理痕迹。

  • 基于NuminaMath 1.5:专注于数学推理痕迹并为 NuminaMath 1.5 (NuminaMath-CoT数据集的改进版本)中的问题生成答案。

  • 自动过滤:应用数学验证来仅保留至少有一个正确答案的问题。还利用Llama3.3-70B-Instruct作为判断器来检索更多正确的示例(例如,对于无法使用基于规则的解析器验证的格式错误的答案的情况)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值