Data-Juicer数据处理配方库详解

虞耀炜

于 2025-06-09 09:05:22 发布

阅读量392

点赞数 3

CC 4.0 BY-SA版权

本文链接：https://blog.youkuaiyun.com/gitblog_00734/article/details/148524725

Data-Juicer数据处理配方库详解

data-juicer A one-stop data processing system to make data higher-quality, juicier, and more digestible for LLMs! 🍎 🍋 🌽 ➡️ ➡️🍸 🍹 🍷为大语言模型提供更高质量、更丰富、更易”消化“的数据！项目地址: https://gitcode.com/gh_mirrors/da/data-juicer

项目概述

Data-Juicer是一个强大的数据处理工具，专注于为机器学习模型提供高质量的训练数据。该项目提供了丰富的数据处理配方（recipes），帮助用户快速实现各种数据预处理和优化任务。本文将详细介绍Data-Juicer中的各类数据处理配方及其应用场景。

配方库结构

Data-Juicer的配方库按照数据类型和处理目标分为多个类别，每种类别下包含针对特定场景的配置文件。这些配方可以直接使用，也可以作为基础进行自定义修改。

基础入门配方

对于初次接触Data-Juicer的用户，项目提供了最小化示例配方，帮助快速上手：

基础功能演示配方：展示Data-Juicer的核心功能
简单数据处理流程：演示完整的数据处理链路
单操作测试配方：用于测试特定数据处理操作

这些配方位于demo文件夹中，是学习Data-Juicer的最佳起点。

文本数据处理配方

开源数据集复现

Data-Juicer提供了多个知名文本数据集的复现配方：

Redpajama数据集：包含arxiv论文、书籍、网络百科等子集的处理流程
BLOOM数据集：大规模多语言数据集的处理方法

这些配方不仅复现了原始数据集的处理流程，还进行了优化和改进。

预训练文本数据集优化

针对现有开源预训练数据集中的低质量数据样本，Data-Juicer提供了优化配方：

| 数据集子集 | 原始样本数 | 优化后样本数 | 保留率 | 主要优化点 | |------------|-----------|------------|-------|-----------| | arXiv论文 | 1,724,497 | 1,655,259 | 95.99% | 学术论文质量过滤 | | 书籍数据 | 205,182 | 195,983 | 95.51% | 内容完整性检查 | | 网络百科 | 29,834,171 | 26,990,659 | 90.47% | 信息密度筛选 | | Common Crawl | 81-111M | 36-50M | 45-46% | 网页质量评估 | | GitHub代码 | 94M+ | 49M | 52.09% | 代码质量分析 |

优化过程采用3-σ规则设置各操作参数，确保数据质量提升的同时保持数据多样性。