微调数据集开源项目Easy DataSet !

原文:微调数据集太难搞?我直接手搓一个开源项目!微调模型想加餐 文献堆成五指山 传统方法泪两行 AI生成总截断 重复问题脑壳瘫 - 掘金

视频:如何把领域文献批量转换为可供模型微调的数据集?_哔哩哔哩_bilibili

如何将领域文献转换为可供模型微调的数据集?

大家好,我是 ConardLi

本文为:想微调特定领域的 DeepSeek,数据集究竟要怎么搞? 对应的第一个实战章节,通过今天的文章,将带大家学习:

  • 学会怎么找:了解一些获取公开数据集的途径和注意事项
  • 学会怎么用:使用 Easy DataSet 工具批量构造领域数据集
  • 学会怎么做:了解 Easy DataSet 的核心设计原理,你可以自己实现此类工具

一、获取公开数据集

很多情况下,如果你只是需要通过微调来提升模型某一方面的能力,在没有特殊的内部数据要求的情况下,是没必要自己去构造数据集的,因为目前互联网上存在着大量的公开且免费使用的数据集,下面就带大家来了解一下,常见的获取公开数据集的途径有哪些,以及对应的使用方法。

2.1 HuggingFace(🪜)

HuggingFace 是一个专注于自然语言处理和机器学习的社区平台,提供了大量高质量的数据集和预训练模型,也是目前 AI 领域最活跃的社区型平台。其数据集涵盖多种语言和任务,如文本分类、情感分析、机器翻译等。

  • 专注NLP/语音/多模态领域数据集
  • 提供Python库直接加载(datasets库)
  • 支持数据集版本控制与增量更新
  • 附带数据预处理脚本和评估指标

https://huggingface.co/datasets

HuggingFace 的 datasets 库也是一个非常方便的工具,可以轻松加载和处理数据集。

 

python

代码解读

复制代码

from datasets import load_dataset dataset = load_dataset("glue", "mrpc") # 示例:加载GLUE基准数据集

在平台上,也直接提供了可以直接在不同场景下使用数据集的代码示例:

2.2 Kaggle(🪜)

Kaggle 是一个数据科学平台,不仅提供大量的公开数据集,还举办各种数据科学竞赛。其数据集涵盖了计算机视觉、自然语言处理、数据可视化等多个领域。

  • 全球最大的数据科学社区驱动平台
  • 包含竞赛数据集、教程和工具
  • 支持在线内核(Kaggle Kernels)进行数据分析
  • 支持通过 API 批量下载

https://www.kaggle.com/datasets

在数据集详情页,直接提供了下载 zip 包的方式,也可以通过 Pythonkaggle datasets download -d <dataset-name> 进行下载。

2.3 Google DataSet Search(🪜)

Google Dataset Search 是一个专门用于搜索数据集的搜索引擎,能够帮助用户找到互联网上公开的数据集。

https://datasetsearch.research.google.com/

它支持跨多个存储库的搜索,包括 Kaggle、GitHub、HuggingFace 等。

2.4 awesome-public-datasets

GitHub 上的 awesome-public-datasets 是一个开源项目,汇集了各种主题的高质量公共数据集(不过已经有段时间没更新了)。这些数据集按照主题分类,如农业、生物、气候、计算机网络、教育、金融等。

https://github.com/awesomedata/awesome-public-datasets

2.5 openDataLab

openDataLab 是一个专注于中文数据集的平台,也是中国本土最大的开源数据集平台,提供了丰富的中文数据集资源。

https://opendatalab.com/

openDataLab 支持通过 CLI 和 Python SDK 下载,打开数据集详情后可以看到具体代码示例:

2.6 ModelScope

ModelScope 是阿里巴巴推出的 AI 模型与数据集中心,除了提供预训练模型外,还包含与模型相关的数据集。其实有点类似于中国版的 HuggingFace

https://modelscope.cn/datasets

ModelScope 同样也提供了用于拉取数据集的 SDK:

2.7 几个平台对比

平台 适合领域 数据量级 语言侧重 特色功能
HuggingFace NLP/多模态 英文 即装即用
Kaggle 通用型 超大 多语言 竞赛生态
Google Dataset Search 跨平台搜索 全域 多语言 元数据聚合
Awesome-public-datasets 学术研究 英文 领域细分
OpenDataLab 中文场景 中文 本土化支持
ModelScope 中文AI应用 中文 模型-数据协同

2.8 数据协议

大家在使用开源数据集的时候,有一点一定注意,就是数据集的协议。数据使用协议(License),直接影响数据能否合法使用,特别是关注能不能商用。

比如下面这个 Facebook 提供的推理数据集,协议为 cc-by-nc-4.0 ,

如果大家不明白这些协议什么意思,直接问 AI 就可以:

如果是非商用数据集,大家一定不能用于公司内部业务的训练,自己学习使用是没问题的。

二、基于特定领域文献合成数据集

相信目前很多同学都在尝试用 AI 来构造数据集,大概就是用这样的方式:

比如这是一个回答效果:

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值