大模型之数据篇(datawhale一起学)

本文探讨了大语言模型背后的训练数据,涉及WebText、OpenWebText、C4和GPT-3等数据集的来源、数据污染问题,以及ThePile等高质量非网络数据集的潜力。同时强调了数据文档和数据生态在负责任地使用数据中的重要性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

大模型的数据

注意:文章内容参考了斯坦福CS324 - Large Language Models课程,以及Datawhale的一起学相关课程中的内容
在之前的两篇博客当中,我们已经了解了大模型的能力和大模型的架构。现在,我们要剥开洋葱的第一层,开始讨论这些模型是如何构建的。任何机器学习方法的起点都是训练数据,因此这就是我们开始的地方。

1. 大语言模型背后的数据

大型语言模型是在"原始文本"上进行训练的。为了实现高度的能力(如语言和世界知识),这些文本应涵盖广泛的领域、类型、语言等。
如何获得大量的数据呢?

  • 网络
  • 大公司私有数据

1.1 WebText和OpenWebText数据集

  • WebText数据集被用于训练GPT-2模型。其目标是获取既多样化又高质量的数据集。
  • OpenAI并没有公开发布WebText数据集,但OpenWebText数据集在理念上复制了WebText的构建方法

1.2 Colossal Clean Crawled Corpus(C4)

  • C4语料库被用来训练T5模型。语料库806GB的文本(15
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

拨开自己的理想三旬

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值