原文:微调数据集太难搞?我直接手搓一个开源项目!微调模型想加餐 文献堆成五指山 传统方法泪两行 AI生成总截断 重复问题脑壳瘫 - 掘金
视频:如何把领域文献批量转换为可供模型微调的数据集?_哔哩哔哩_bilibili
如何将领域文献转换为可供模型微调的数据集?

大家好,我是 ConardLi
本文为:想微调特定领域的 DeepSeek,数据集究竟要怎么搞? 对应的第一个实战章节,通过今天的文章,将带大家学习:
- 学会怎么找:了解一些获取公开数据集的途径和注意事项
- 学会怎么用:使用 Easy DataSet 工具批量构造领域数据集
- 学会怎么做:了解 Easy DataSet 的核心设计原理,你可以自己实现此类工具
一、获取公开数据集
很多情况下,如果你只是需要通过微调来提升模型某一方面的能力,在没有特殊的内部数据要求的情况下,是没必要自己去构造数据集的,因为目前互联网上存在着大量的公开且免费使用的数据集,下面就带大家来了解一下,常见的获取公开数据集的途径有哪些,以及对应的使用方法。
2.1 HuggingFace(🪜)
HuggingFace 是一个专注于自然语言处理和机器学习的社区平台,提供了大量高质量的数据集和预训练模型,也是目前 AI 领域最活跃的社区型平台。其数据集涵盖多种语言和任务,如文本分类、情感分析、机器翻译等。
- 专注NLP/语音/多模态领域数据集
- 提供Python库直接加载(datasets库)
- 支持数据集版本控制与增量更新
- 附带数据预处理脚本和评估指标

HuggingFace 的 datasets 库也是一个非常方便的工具,可以轻松加载和处理数据集。
python
代码解读
复制代码
from datasets import load_dataset dataset = load_dataset("glue", "mrpc") # 示例:加载GLUE基准数据集
在平台上,也直接提供了可以直接在不同场景下使用数据集的代码示例:

2.2 Kaggle(🪜)
Kaggle 是一个数据科学平台,不仅提供大量的公开数据集,还举办各种数据科学竞赛。其数据集涵盖了计算机视觉、自然语言处理、数据可视化等多个领域。
- 全球最大的数据科学社区驱动平台
- 包含竞赛数据集、教程和工具
- 支持在线内核(Kaggle Kernels)进行数据分析
- 支持通过 API 批量下载

在数据集详情页,直接提供了下载 zip 包的方式,也可以通过 Python:kaggle datasets download -d <dataset-name> 进行下载。

2.3 Google DataSet Search(🪜)
Google Dataset Search 是一个专门用于搜索数据集的搜索引擎,能够帮助用户找到互联网上公开的数据集。

它支持跨多个存储库的搜索,包括 Kaggle、GitHub、HuggingFace 等。

2.4 awesome-public-datasets
GitHub 上的 awesome-public-datasets 是一个开源项目,汇集了各种主题的高质量公共数据集(不过已经有段时间没更新了)。这些数据集按照主题分类,如农业、生物、气候、计算机网络、教育、金融等。

2.5 openDataLab
openDataLab 是一个专注于中文数据集的平台,也是中国本土最大的开源数据集平台,提供了丰富的中文数据集资源。

openDataLab 支持通过 CLI 和 Python SDK 下载,打开数据集详情后可以看到具体代码示例:

2.6 ModelScope
ModelScope 是阿里巴巴推出的 AI 模型与数据集中心,除了提供预训练模型外,还包含与模型相关的数据集。其实有点类似于中国版的 HuggingFace。

ModelScope 同样也提供了用于拉取数据集的 SDK:

2.7 几个平台对比
| 平台 | 适合领域 | 数据量级 | 语言侧重 | 特色功能 |
|---|---|---|---|---|
| HuggingFace | NLP/多模态 | 大 | 英文 | 即装即用 |
| Kaggle | 通用型 | 超大 | 多语言 | 竞赛生态 |
| Google Dataset Search | 跨平台搜索 | 全域 | 多语言 | 元数据聚合 |
| Awesome-public-datasets | 学术研究 | 中 | 英文 | 领域细分 |
| OpenDataLab | 中文场景 | 中 | 中文 | 本土化支持 |
| ModelScope | 中文AI应用 | 大 | 中文 | 模型-数据协同 |
2.8 数据协议
大家在使用开源数据集的时候,有一点一定注意,就是数据集的协议。数据使用协议(License),直接影响数据能否合法使用,特别是关注能不能商用。
比如下面这个 Facebook 提供的推理数据集,协议为 cc-by-nc-4.0 ,

如果大家不明白这些协议什么意思,直接问 AI 就可以:

如果是非商用数据集,大家一定不能用于公司内部业务的训练,自己学习使用是没问题的。
二、基于特定领域文献合成数据集
相信目前很多同学都在尝试用 AI 来构造数据集,大概就是用这样的方式:

比如这是一个回答效果:

最低0.47元/天 解锁文章
28万+

被折叠的 条评论
为什么被折叠?



