大语言模型训练数据集

大语言模型的数据集有很多,以下是一些常用的:

- 中文维基百科:这是一个包含大量中文文本的数据集,可用于训练中文语言模型。
- 英文维基百科:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。
- Common Crawl:这是一个包含大量英文文本的数据集,可用于训练英文语言模型。
- WebQuestionSP数据集、ComplexWebQuestions数据集、GraphQuestions数据集、GrailQA数据集、KQApro数据集、QALD-9数据集、MKQA数据集等:这些都是近年来大火的大语言模型数据集。

此外,一个1.6TB的数据集跨越了59种语言(46种自然语言,13种编程语言),用于训练拥有1760亿个参数的BigScience大型公开科学多语言开放访问(BLOOM)语言模型。

在开发大语言模型时,选择适合的数据集是非常重要的。为了节省数据准备时间并带来启发,可以参考OpenDataLab已上架的、不同分类对应的的可用于大语言模型的预训练、指令微调等数据资源。同时,也可以参考huggingface,modelscope等平台,这些平台上有一些常用的数据集。

1. **Common Crawl**
   - 网址: [http://commoncrawl.org](http://commoncrawl.org)
   - 介绍: Common Crawl是一个非盈利组织,提供公共访问的Web数据集。它定期爬取整个网站,并通过其归档让大量的网页文本数据可用于各种研究和开发目的。

2. **Wikipedia**
   - 网址: [https://dumps.wikimedia.org](https://dumps.wikimedia.org)
   - 介绍: 维基百科数据转储包含了所有维基百科条目的文本ÿ

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值