大语言模型基础与内存优化全解析
1. 序列到序列模型与预训练数据集
序列到序列模型最初为翻译任务设计,在文本摘要任务中也非常有用。T5及其微调版本FLAN - T5是著名的编码器 - 解码器、序列到序列模型,广泛应用于各种生成式语言任务。
预训练数据集方面,生成式模型在预训练阶段通过大量训练数据学习能力,数据规模常达TB和PB级别。这些数据集通常来自公共互联网,也可包含私有亚马逊S3存储桶或数据库中的专有数据。
常见的预训练大型语言模型的数据集有:
- Wikipedia :提供2022年其内容的多语言提取版本。
- Common Crawl :每月对整个互联网文本的转储。
由于这些互联网数据较为杂乱,有一些变体数据集尝试清理数据以进行更高质量的模型训练,如Wiki - 40B、Colossal Clean Crawled Corpus (C4)、The Pile和RefinedWeb。其中,RefinedWeb使用统计方法过滤机器生成的文本。Falcon系列模型在名为RefinedWeb的1.5万亿标记数据上进行训练,数据在由257个ml.c5.18xlarge SageMaker实例组成的集群上处理,该集群包含18,504个CPU和37TB的CPU RAM。
2. 缩放定律
对于生成式模型,出现了一组缩放定律,描述了在固定计算预算(如GPU小时数)下模型大小和数据集大小之间的权衡。这些定律表明,增加标记数量或模型参数数量都可以提高生成式模型的性能。
通常,同时扩大两者需要更高的计算预算,计算预算通常
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



