LLM 数据制备神器！DataFlow 框架深度解析（非常详细），新手也能轻松构建高质量数据集！

最新推荐文章于 2025-12-27 16:51:58 发布

原创最新推荐文章于 2025-12-27 16:51:58 发布 · 889 阅读

23 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #架构 #大数据 #学习 #机器学习

一、导读

训练大语言模型需要海量高质量数据，但现有的数据准备工作非常零散，大家通常写临时脚本，导致流程难以重复、分享和优化。尤其当我们需要大模型自己来生成或迭代优化数据时，缺少好用的系统化工具。

为此，本文提出了DataFlow，一个统一的、由大语言模型驱动的数据准备框架。它将数据处理步骤模块化，并能通过智能体将自然语言描述自动转换为可执行的数据处理流程。实验表明，由它生成的数据质量很高，仅用少量样本就能让模型性能超过使用海量普通数据训练的效果。

二、论文基本信息

论文标题：DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
作者姓名与单位：Hao Liang, Xiaochen Ma, Zhou Liu等，来自北京大学、上海人工智能实验室、OpenDataLab、LLaMA-Factory团队等多个机构。
论文链接：https://arxiv.org/abs/2512.16676v1
源代码：https://github.com/OpenDCAI/DataFlow
数据集：https://huggingface.co/datasets/OpenDCAI/dataflow-instruct-10k
代码库文档：https://opendcai.github.io/DataFlow-Doc/

三、主要贡献与创新

提出首个统一的、以大语言模型为核心驱动的数据准备框架DataFlow。
构建了包含近200个可复用操作和六个先进流程的丰富生态系统。
设计了类似PyTorch的友好编程模型，支持通过Python包进行插件式扩展。
引入了DataFlow-Agent智能体层，可根据自然语言描述自动构建和调试流程。
通过大量实验验证了其生成数据的高效性和高质量，并开源了合成数据集。

四、研究方法与原理

核心思路是用一套统一的抽象（像搭积木一样）来标准化数据准备流程，并用智能体实现“用说话来编程”的自动化。

模型结构图

全局存储与操作交互：DataFlow用一个统一的存储抽象（DataFlowStorage）来管理所有数据，数据被组织成表格形式。每个操作（Operator）只通过read()和write(data)方法与存储交互，这使得操作相互独立，易于组合和替换。
分层编程接口：

LLM服务API：提供generate_from_input等统一接口，屏蔽不同大模型后端（如vLLM、OpenAI API）的差异。
操作编程接口：每个操作（如TranslateOperator）在初始化（__init__）时配置，在执行（run）时通过input_key和output_key与存储中的特定列绑定，实现数据流转。
提示模板接口：将引导大模型的提示词模板化，使同一操作逻辑可通过更换模板适应不同任务。
流程组合接口：流程（Pipeline）像PyTorch模块一样，在__init__中定义操作和资源，在forward中按顺序执行操作。支持compile()进行静态依赖分析和验证。

操作分类：操作按功能分为四类：(1)生成：增加新数据或字段；(2)评估：为数据打分或分类；(3)过滤：根据条件删除数据行；(4)精炼：修改现有数据的字段内容。这种分类对应了“生成-评估-过滤-精炼”的核心工作流。
DataFlow-Agent：这是一个基于多智能体协作的系统，用于自动构建流程。其工作流包括：意图分析 -> 操作检索/合成 -> 流程组装 -> 验证调试。当现有操作库无法满足需求时，Operator Synthesis Agent能利用检索增强生成技术自动编写并调试新的操作代码。

五、实验设计与结果分析

7.1 文本数据准备

设置：评估了预训练数据过滤和指令微调数据过滤。使用SlimPajama、Alpaca、WizardLM等数据集。通过DataFlow的过滤操作选取高质量子集。评估指标包括ARC、MMLU、GSM8K等多个基准测试的准确率。
结果：

表2显示，在30B token规模上，DataFlow过滤的数据训练出的模型平均分（35.69）优于随机采样和其他过滤方法。

表3和表4显示，在指令微调中，DataFlow合成并过滤的DataFlow-SFT-15K和DataFlow-Chat-15K数据，在数学、代码和对话任务上均超越了原始人类标注数据集。

7.2 数学推理数据准备

设置：使用DataFlow推理流程，基于NuminaMath种子数据，合成包含思维链的数学题数据集DataFlow-Reasoning-10K。对比基线为Open-R1和Synthetic-1的10K子集。在GSM8K、MATH等8个数学基准上评估。
结果：

如表5所示，使用DataFlow数据微调后的Qwen2.5-32B模型取得了55.7的平均分，显著高于使用其他合成数据（54.2和54.0），证明了其数据质量优势。

7.3 代码数据准备

设置：基于LingoCoder-SFT种子，用DataFlow代码流程生成1K/5K/10K规模的代码指令数据。对比基线为Code Alpaca和Self-OSS-Instruct。在BigCodeBench、HumanEval等4个代码基准上评估Qwen2.5-7B/14B模型。
结果：表6显示，DataFlow-Code-10K数据在7B和14B模型上均取得了最佳平均性能（46.2%和51.0%），且性能随数据量增加而稳定提升。

7.4 Text-to-SQL数据准备

设置：使用DataFlow的Text-to-SQL流程，通过增强Spider、BIRD等数据集的种子SQL，构建了约90K的高质量数据DataFlow-Text2SQL-90K。对比基线为SynSQL。在Spider、BIRD等6个基准上评估。
结果：

表7显示，使用90K DataFlow数据微调的模型，性能已接近甚至部分超越使用250万SynSQL数据训练的模型。例如，在Qwen2.5-Coder-7B上，DataFlow-90K在Spider-dev上达到82.0%执行准确率，显著高于基线。

7.5 AgenticRAG数据准备

设置：使用DataFlow AgenticRAG流程从维基百科合成10K多跳问答数据DataFlow-AgenticRAG-10k。对比HotpotQA、Musique等人类标注数据集。在多个多跳QA基准上评估泛化能力。
结果：

表8显示，DataFlow合成的数据在分布外泛化（OOD-Avg）指标上，匹配或超越了对应规模的人类标注数据集，证明了合成数据具有优秀的泛化性。

7.7 统一多域数据准备

设置：融合DataFlow生成的数学、代码、文本数据，构建DataFlow-Instruct-10K统一数据集。对比基线为大规模通用指令数据集Infinity-Instruct的10K和1M子集。
结果：

如表10和表11所示，仅用10K DataFlow数据微调的基础模型，在数学和代码任务上的性能大幅超越了使用1M通用指令数据微调的模型，并接近其对应的指令微调版本模型性能，凸显了DataFlow数据的高效性。

7.8 Agentic流程编排

设置：测试DataFlow-Agent根据不同详细程度的自然语言描述自动构建流程的能力，分简单、中等、困难三个级别。用LLM作为裁判，从流程结构对齐和代码逻辑一致性两方面评分。
结果：

表12显示，Agent在流程结构对齐上表现良好（总体0.80），但在与参考代码完全一致上仍有挑战（总体0.49），尤其在描述模糊的“困难”任务上得分较低（0.23），说明全自动代码级构建仍有改进空间。

六、论文结论与评价

总结本文成功构建了DataFlow这一标准化、自动化的LLM数据准备框架。实验证明，其基于模块化操作和智能体合成的高质量数据，能显著提升模型在数学、代码等多领域下游任务上的性能，并展现出惊人的数据效率，实现了“少而精”的数据制备目标。

评价这项工作为数据中心的AI研究提供了重要的基础设施，可能推动数据工作流从“手工作坊”走向“标准化生产”。其优点在于设计统一、自动化程度高、生成数据质量好。缺点或挑战在于，如实验所示，智能体在应对高度模糊、开放的任务描述时，自动生成的流程与理想代码尚有差距，完全取代专家经验还为时过早。未来的研究可以更深入地测试其在更复杂、更开放领域下的可靠性与稳定性，并探索如何将人类反馈更有效地融入智能体的自动决策循环中。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述