大模型微调数据集怎么搞？基于easydataset实现文档转换问答对json数据集！

原创已于 2025-04-20 16:15:39 修改 · 1.5k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#数据集

于 2025-04-13 17:02:39 首次发布

微调的难点之一在与数据集。本文介绍一种将文档转换为问答数据集的方法，超级快！

上图左侧是我的原文档，右侧是我基于文档生成的数据集。

原理是通过将文档片段发送给ollama本地模型，然后本地模型生成有关问题，并基于文档片段回答问题。需要用到的工具有ollama，easy-dataset: https://github.com/ConardLi/easy-dataset

ollama安装就不赘述了，easy-dataset是一个前端项目，只需要有nodejs就能运行起来了。

进入easydataset的运行界面，新建项目，会被要求添加模型。如果ollama在运行，easydataset能检测到已安装的模型。

首先需要将文档拆分成md格式，MinerU 可以很好做到这一点。

然后将md文件上传到easydataset，easydataset会将其拆分成若干个片段，并针对每个片段生成若干个问题，最后再对每个问题进行回答，问答对就完成了。

按照需要的格式导出，就能直接作为数据集文件了。

数据集格式介绍可参考Unsloth 基于自己的数据集微调建立专属模型_unsloth微调-优快云博客

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

black^sugar

关注关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

大模型——Easy Dataset大模型微调数据集神器

04-11

1428

在“Settings”页面，找到“Prompts”或“提示模板”。输入自定义提示，比如“请用简洁的语言回答问题”。保存后，生成答案时会按照你的提示调整风格。

详解大模型微调数据集构建方法(持续更新)

热门推荐

herosunly的博客

06-05

28万+

本文详细介绍了大模型微调数据集构建方法，希望能对学习大模型的同学们有所帮助。文章目录 1. 前言 2. 微调数据集构建方法 2.1 方法一 2.2 方法二 2.3 方法三 2.4 方法四 2.5 方法五

参与评论您还未登录，请先登录后发表或查看评论

从零开始用Easy Dataset：大模型训练数据高效构建实战教程

2401_84815887的博客

06-28

3124

Easy Dataset：快速构建大模型训练数据的智能工具 Easy Dataset是一款专为AI开发者设计的数据集创建工具，能够将各类文档（PDF/Markdown/DOCX/TXT）高效转化为结构化问答数据集。该工具通过智能文档处理、文本分割、问题生成和答案构建四个核心步骤，简化了大模型训练数据的准备工作。支持多种导出格式（JSON/JSONL/Excel）和数据集风格（Alpaca/ShareGPT），兼容所有OpenAI格式的LLM API。使用Docker即可快速部署，提供可视化界面管理整个数据处

手把手实战：开源工具 Easy Dataset 三步生成数据集

weixin_46880696的博客

05-08

6476

例如，当我们尝试使用 DeepSeek 上传一份原始文档并通过提示词让模型生成QA数据集时，可以观察到上述缺陷的存在：即使重复操作，基于相同输入文件生成的结果依旧保持一致且质量有限。项目创建完成后，进行模型配置，这一步可以根据各自情况配置，配置也非常简单，选择“项目设置” -> “模型配置”，如下图。在某些专业性强的领域，如医疗健康或法律服务中，由于严格的隐私保护法规限制，公开可用的数据集相对稀缺，获取难度较大。选择“问题管理”，勾选生成的问题，选择“批量构造数据集”，过程仍需等待一段时间。

零代码构建高质量数据集：大模型微调必备神器easy-dataset详解！

2401_85375151的博客

10-10

1112

easy-dataset是字节开源的文档转数据集工具，支持PDF、Word、Excel等多种格式文档处理，能将领域知识转化为结构化数据集。该工具提供智能文献处理、AI辅助生成数据集、领域标签体系、批量构造等功能，支持多种格式导出和模型评估。适合需要将领域文献转化为问答数据集、构建推理链(COT)数据集或注重数据集标签结构的用户，可大幅减少人工繁琐环节，提升数据集构建效率和质量。

Easy-Dataset实现文档生成数据集

2501_92435603的博客

06-14

1896

Easy Dataset是一个专门为大型语言模型（LLM）创建微调数据集而设计的应用程序。它提供了一个直观的界面，用于上传特定领域的文件、智能分割内容、生成问题以及为模型微调生成高质量的训练数据。使用Easy Dataset，您可以将领域知识转换为结构化数据集，与遵循OpenAI格式的所有LLM API兼容，使微调过程简单高效。

Easydataset文本处理与QA数据集生成指南

最新发布

zznzdnb的博客

10-10

732

Easy Dataset无痛入门

【大模型微调】3.通过Easy Dataset构建自己的微调数据集

兴趣使然的创作者

06-18

1445

在前文了解 LLaMA-Factory 的各种主要设置参数后，本文开始使用现有的资料构建自己的微调数据集。

微调数据集开源项目Easy DataSet ！

张伟的专栏

03-19

3248

原文：微调数据集太难搞？我直接手搓一个开源项目！微调模型想加餐文献堆成五指山传统方法泪两行 AI生成总截断重复问题脑壳瘫 - 掘金如何将领域文献转换为可供模型微调的数据集？大家好，我是 ConardLi本文为：想微调特定领域的 DeepSeek，数据集究竟要怎么搞？对应的第一个实战章节，通过今天的文章，将带大家学习：很多情况下，如果你只是需要通过微调来提升模型某一方面的能力，在没有特殊的内部数据要求的情况下，是没必要自己去构造数据集的，因为目前互联网上存在着大量的公开且免费使用的数据集，下面就带大家

EasyDatasets是什么？

runfarther的专栏

08-26

595

EasyDatasets是什么？简单来说，EasyDatasets 是一个用于简化数据集加载和处理的 Python 库。它的核心目标是让开发者，尤其是机器学习初学者和研究人员，能够用极其简单的一行代码来获取和加载常用的公开数据集。您可以把它想象成一个非常方便的工具箱，里面装满了整理好的、立即可用的数据集，省去了您自己从原始网站下载、解压、解析文件、进行数据预处理的繁琐步骤。

【EasyDataset】

zt0612xd的博客

03-31

828

打开浏览器访问：http://localhost:1717。把max_tokens从2028改成8196。

大模型微调部署实战及类GPT工具的高效使用

herosunly的博客

07-24

22万+

本文主要介绍了专栏《大模型微调部署实战及类GPT工具的高效使用》的核心内容，希望对使用大语言模型的同学们有所帮助。文章目录 1. 前言 2. 专栏亮点 3. 你的收获 4. 详细目录

详解大模型多轮对话的数据组织形式

herosunly的博客

09-06

15万+

本文主要介绍了详解大模型多轮对话的数据组织形式，希望对学习大语言模型的同学们有所帮助。文章目录 1. 前言 2. LLaMA Factory适配的多轮对话数据形式 3. SWIFT适配的多轮对话数据形式

11、LLaMA-Factory自定义数据集微调

Andy_shenzl的博客

09-06

1万+

针对实际的微调需求，使用专门针对业务垂直领域的私有数据进行大模型微调才是我们需要做的。因此，我们需要探讨如何在LLaMA-Factory项目及上述创建的微调流程中引入自定义数据集进行微调。alpaca和sharegpt。

数据集制作--easy-dataset

无痕的博客

09-28

1245

EasyDataset是一个用于创建LLM微调数据集的开源工具，支持Docker和NPM两种安装方式。它提供直观界面处理文档（PDF/Markdown/txt/DOCX）、智能分割文本、生成问题并构造训练数据集，兼容OpenAI格式。主要功能包括创建项目、处理文档、生成问题、构建数据集和导出数据（支持Alpaca/ShareGPT格式）。通过领域知识转化和结构化处理，简化大模型微调流程，提升数据集构建效率。相关文档和教程可在GitHub、飞书云文档和B站获取。

【大语言模型】自动化问答对生成——使用ernie-bot将PDF文档转化为QA对

phyllis0065的博客

07-11

3899

使用ernie-bot将PDF文档转化为QA对

如何从任何文档生成指令数据集以进行LLM微调

liferecords的博客

03-14

4456

这种选择背后的动机源于一种观察，即像 ChatGPT 这样的工具往往难以掌握特定领域的知识，尤其是特定行业和卢森堡等较小国家的监管要求。通过说明，人们可以引导讨论，确保模型的回复是相关的、有用的，并且符合用户的需求。这种量身定制LLM将使我能够理解潜在的监管要求，回应有关这些要求的询问，并最终将其效用扩展到更广泛的应用，例如风险管理、影响评估和持续监控。这也是一个关键的步骤，可以显着影响微调模型的性能。这是我用我的文档创建的数据集，当然，在微调过程之前，它需要一些进一步的清理和改进，以确保其质量和性能。

北航大学团队推出Easy Dataset：让普通人也能制作AI训练数据的神奇工具

zhidingkeji的博客

07-16

553

这说明通过角色驱动方法生成的多样化数据不仅没有降低模型的通用能力，反而通过增加训练数据的风格和语义多样性，提升了模型的泛化能力。通过在金融问答任务上的实验验证，使用Easy Dataset生成的训练数据能够显著提升AI模型在特定领域的表现，同时保持其在通用任务上的能力。这个工具就像一个智能的图书管理员加上一位经验丰富的教师，它不仅能够准确理解和提取各种格式文档中的关键信息，还能将这些信息转化为适合AI学习的问答对话形式，更重要的是，它提供了一个直观易用的图形界面，让即使不懂编程的人也能轻松使用。

大模型微调数据集格式转换为json

01-17

### 将大模型微调用的数据集转换为JSON格式为了实现这一目标，可以编写一个Python函数`convert_dataset_to_json`，该函数读取特定结构的输入文件并将其转化为适合大模型微调使用的JSON格式。此过程涉及解析原始数据、调整其结构以匹配所需的模式以及最终保存到指定的目标位置。对于Doccano平台导出的实体识别标注数据而言，存在专门设计的功能`convert_coccano2LLM`用于处理这类情况[^1]： ```python import json def convert_coccano2LLM(input_file, output_file, schema): with open(input_file, 'r', encoding='utf-8') as f_in: data = json.load(f_in) processed_data = [] for item in data: text = item['text'] entities = [{"entity": ent["label"], "start_pos": ent["start_offset"], "end_pos": ent["end_offset"]} for ent in item["labels"]] formatted_item = { "content": text, "entities": entities } processed_data.append(formatted_item) # 特别注意：这里是 label 要转成字符串 str_processed_data = json.dumps(processed_data, ensure_ascii=False) with open(output_file, 'w', encoding='utf-8') as f_out: f_out.write(str_processed_data) ``` 上述代码片段展示了如何将来自Doccano平台的实体识别标注数据转换为适配于大型语言模型微调所需的标准JSON格式。通过遍历每一条记录中的文本及其对应的标签信息，并按照新的结构重新组织这些信息，最后使用`json.dumps()`方法确保所有的标签都被正确地序列化为字符串形式，从而防止后续加载过程中可能出现的问题。值得注意的是，在实际应用中可能还需要考虑不同框架或库之间的差异性，比如某些情况下三段式的数据格式并不完全适用所有类型的预训练模型[^3]。因此，在实施具体方案前应当仔细查阅所选用的大规模预训练模型文档，确认最佳实践指南。