6、大语言模型训练:从数据集到内存优化

大语言模型训练:从数据集到内存优化

1. 序列到序列模型与预训练数据集

序列到序列模型最初为翻译任务设计,在文本摘要任务中也非常有用。T5 及其微调版本 FLAN - T5 是著名的编码器 - 解码器、序列到序列模型,广泛应用于多种生成式语言任务。

预训练数据集对于生成式模型至关重要,模型在预训练阶段通过大量训练数据(通常达到 TB 甚至 PB 级别)学习能力。这些数据集常来自公共互联网,也可能包含私有 Amazon S3 存储桶或数据库中的专有数据。

常见的预训练大型语言模型的数据集有 Wikipedia 和 Common Crawl。Wikipedia 提供了 2022 年其内容的多语言摘录,Common Crawl 则是每月对整个互联网文本的转储。不过,这类互联网数据比较杂乱,因此有一些变体数据集,如 Wiki - 40B、Colossal Clean Crawled Corpus (C4)、The Pile 和 RefinedWeb 等,它们试图清理数据以进行更高质量的模型训练。其中,RefinedWeb 尤其尝试使用统计方法过滤出机器生成的文本,以确定文本是人类生成还是机器生成。

Falcon 系列模型在名为 RefinedWeb 的 1.5 万亿个标记的数据上进行训练。这些数据在由 257 个 ml.c5.18xlarge SageMaker 实例组成的集群上处理,该集群包含 18,504 个 CPU 和 37TB 的 CPU 内存。

2. 缩放定律

对于生成式模型,已经出现了一组缩放定律,描述了在固定计算预算(如 GPU 小时数)下模型大小和数据集大小之间的权衡。这些定律表明,通过增加标记数量或模型参数

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值