大语言模型训练:从数据集到内存优化
1. 序列到序列模型与预训练数据集
序列到序列模型最初为翻译任务设计,在文本摘要任务中也非常有用。T5 及其微调版本 FLAN - T5 是著名的编码器 - 解码器、序列到序列模型,广泛应用于多种生成式语言任务。
预训练数据集对于生成式模型至关重要,模型在预训练阶段通过大量训练数据(通常达到 TB 甚至 PB 级别)学习能力。这些数据集常来自公共互联网,也可能包含私有 Amazon S3 存储桶或数据库中的专有数据。
常见的预训练大型语言模型的数据集有 Wikipedia 和 Common Crawl。Wikipedia 提供了 2022 年其内容的多语言摘录,Common Crawl 则是每月对整个互联网文本的转储。不过,这类互联网数据比较杂乱,因此有一些变体数据集,如 Wiki - 40B、Colossal Clean Crawled Corpus (C4)、The Pile 和 RefinedWeb 等,它们试图清理数据以进行更高质量的模型训练。其中,RefinedWeb 尤其尝试使用统计方法过滤出机器生成的文本,以确定文本是人类生成还是机器生成。
Falcon 系列模型在名为 RefinedWeb 的 1.5 万亿个标记的数据上进行训练。这些数据在由 257 个 ml.c5.18xlarge SageMaker 实例组成的集群上处理,该集群包含 18,504 个 CPU 和 37TB 的 CPU 内存。
2. 缩放定律
对于生成式模型,已经出现了一组缩放定律,描述了在固定计算预算(如 GPU 小时数)下模型大小和数据集大小之间的权衡。这些定律表明,通过增加标记数量或模型参数
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



