LLM 数据制备神器!DataFlow 框架深度解析(非常详细),新手也能轻松构建高质量数据集!

一、导读

训练大语言模型需要海量高质量数据,但现有的数据准备工作非常零散,大家通常写临时脚本,导致流程难以重复、分享和优化。尤其当我们需要大模型自己来生成或迭代优化数据时,缺少好用的系统化工具。

为此,本文提出了DataFlow,一个统一的、由大语言模型驱动的数据准备框架。它将数据处理步骤模块化,并能通过智能体将自然语言描述自动转换为可执行的数据处理流程。实验表明,由它生成的数据质量很高,仅用少量样本就能让模型性能超过使用海量普通数据训练的效果。

二、论文基本信息

  • 论文标题:DataFlow: An LLM-Driven Framework for Unified Data Preparation and Workflow Automation in the Era of Data-Centric AI
  • 作者姓名与单位:Hao Liang, Xiaochen Ma, Zhou Liu等,来自北京大学、上海人工智能实验室、OpenDataLab、LLaMA-Factory团队等多个机构。
  • 论文链接:https://arxiv.org/abs/2512.16676v1
  • 源代码:https://github.com/OpenDCAI/DataFlow
  • 数据集:https://huggingface.co/datasets/OpenDCAI/dataflow-instruct-10k
  • 代码库文档:https://opendcai.github.io/DataFlow-Doc/

三、主要贡献与创新

  1. 提出首个统一的、以大语言模型为核心驱动的数据准备框架DataFlow。
  2. 构建了包含近200个可复用操作六个先进流程的丰富生态系统。
  3. 设计了类似PyTorch的友好编程模型,支持通过Python包进行插件式扩展
  4. 引入了DataFlow-Agent智能体层,可根据自然语言描述自动构建和调试流程。
  5. 通过大量实验验证了其生成数据的高效性和高质量,并开源了合成数据集。

四、研究方法与原理

核心思路是用一套统一的抽象(像搭积木一样)来标准化数据准备流程,并用智能体实现“用说话来编程”的自动化

模型结构图

  • 全局存储与操作交互:DataFlow用一个统一的存储抽象(DataFlowStorage)来管理所有数据,数据被组织成表格形式。每个操作(Operator)只通过read()write(data)方法与存储交互,这使得操作相互独立,易于组合和替换。
  • 分层编程接口
  1. LLM服务API:提供generate_from_input等统一接口,屏蔽不同大模型后端(如vLLM、OpenAI API)的差异。
  2. 操作编程接口:每个操作(如TranslateOperator)在初始化(__init__)时配置,在执行(run)时通过input_keyoutput_key与存储中的特定列绑定,实现数据流转。
  3. 提示模板接口:将引导大模型的提示词模板化,使同一操作逻辑可通过更换模板适应不同任务。
  4. 流程组合接口:流程(Pipeline)像PyTorch模块一样,在__init__中定义操作和资源,在forward中按顺序执行操作。支持compile()进行静态依赖分析和验证。
  • 操作分类:操作按功能分为四类:(1)生成:增加新数据或字段;(2)评估:为数据打分或分类;(3)过滤:根据条件删除数据行;(4)精炼:修改现有数据的字段内容。这种分类对应了“生成-评估-过滤-精炼”的核心工作流。
  • DataFlow-Agent:这是一个基于多智能体协作的系统,用于自动构建流程。其工作流包括:意图分析 -> 操作检索/合成 -> 流程组装 -> 验证调试。当现有操作库无法满足需求时,Operator Synthesis Agent能利用检索增强生成技术自动编写并调试新的操作代码。

五、实验设计与结果分析

7.1 文本数据准备

  • 设置:评估了预训练数据过滤和指令微调数据过滤。使用SlimPajama、Alpaca、WizardLM等数据集。通过DataFlow的过滤操作选取高质量子集。评估指标包括ARC、MMLU、GSM8K等多个基准测试的准确率。
  • 结果

表2显示,在30B token规模上,DataFlow过滤的数据训练出的模型平均分(35.69)优于随机采样和其他过滤方法。

表3表4显示,在指令微调中,DataFlow合成并过滤的DataFlow-SFT-15KDataFlow-Chat-15K数据,在数学、代码和对话任务上均超越了原始人类标注数据集。

7.2 数学推理数据准备

  • 设置:使用DataFlow推理流程,基于NuminaMath种子数据,合成包含思维链的数学题数据集DataFlow-Reasoning-10K。对比基线为Open-R1和Synthetic-1的10K子集。在GSM8K、MATH等8个数学基准上评估。
  • 结果

表5所示,使用DataFlow数据微调后的Qwen2.5-32B模型取得了55.7的平均分,显著高于使用其他合成数据(54.2和54.0),证明了其数据质量优势。

7.3 代码数据准备

  • 设置:基于LingoCoder-SFT种子,用DataFlow代码流程生成1K/5K/10K规模的代码指令数据。对比基线为Code Alpaca和Self-OSS-Instruct。在BigCodeBench、HumanEval等4个代码基准上评估Qwen2.5-7B/14B模型。
  • 结果表6显示,DataFlow-Code-10K数据在7B和14B模型上均取得了最佳平均性能(46.2%和51.0%),且性能随数据量增加而稳定提升。

7.4 Text-to-SQL数据准备

  • 设置:使用DataFlow的Text-to-SQL流程,通过增强Spider、BIRD等数据集的种子SQL,构建了约90K的高质量数据DataFlow-Text2SQL-90K。对比基线为SynSQL。在Spider、BIRD等6个基准上评估。
  • 结果

表7显示,使用90K DataFlow数据微调的模型,性能已接近甚至部分超越使用250万SynSQL数据训练的模型。例如,在Qwen2.5-Coder-7B上,DataFlow-90K在Spider-dev上达到82.0%执行准确率,显著高于基线。

7.5 AgenticRAG数据准备

  • 设置:使用DataFlow AgenticRAG流程从维基百科合成10K多跳问答数据DataFlow-AgenticRAG-10k。对比HotpotQA、Musique等人类标注数据集。在多个多跳QA基准上评估泛化能力。
  • 结果

表8显示,DataFlow合成的数据在分布外泛化(OOD-Avg)指标上,匹配或超越了对应规模的人类标注数据集,证明了合成数据具有优秀的泛化性。

7.7 统一多域数据准备

  • 设置:融合DataFlow生成的数学、代码、文本数据,构建DataFlow-Instruct-10K统一数据集。对比基线为大规模通用指令数据集Infinity-Instruct的10K和1M子集。
  • 结果

表10表11所示,仅用10K DataFlow数据微调的基础模型,在数学和代码任务上的性能大幅超越了使用1M通用指令数据微调的模型,并接近其对应的指令微调版本模型性能,凸显了DataFlow数据的高效性。

7.8 Agentic流程编排

  • 设置:测试DataFlow-Agent根据不同详细程度的自然语言描述自动构建流程的能力,分简单、中等、困难三个级别。用LLM作为裁判,从流程结构对齐和代码逻辑一致性两方面评分。
  • 结果

表12显示,Agent在流程结构对齐上表现良好(总体0.80),但在与参考代码完全一致上仍有挑战(总体0.49),尤其在描述模糊的“困难”任务上得分较低(0.23),说明全自动代码级构建仍有改进空间。

六、论文结论与评价

总结 本文成功构建了DataFlow这一标准化、自动化的LLM数据准备框架。实验证明,其基于模块化操作和智能体合成的高质量数据,能显著提升模型在数学、代码等多领域下游任务上的性能,并展现出惊人的数据效率,实现了“少而精”的数据制备目标。

评价 这项工作为数据中心的AI研究提供了重要的基础设施,可能推动数据工作流从“手工作坊”走向“标准化生产”。其优点在于设计统一、自动化程度高、生成数据质量好。缺点或挑战在于,如实验所示,智能体在应对高度模糊、开放的任务描述时,自动生成的流程与理想代码尚有差距,完全取代专家经验还为时过早。未来的研究可以更深入地测试其在更复杂、更开放领域下的可靠性与稳定性,并探索如何将人类反馈更有效地融入智能体的自动决策循环中。

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值