6、大语言模型基础与内存优化全解析

大语言模型基础与内存优化全解析

1. 序列到序列模型与预训练数据集

序列到序列模型最初为翻译任务设计,在文本摘要任务中也非常有用。T5及其微调版本FLAN - T5是著名的编码器 - 解码器、序列到序列模型,广泛应用于各种生成式语言任务。

预训练数据集方面,生成式模型在预训练阶段通过大量训练数据学习能力,数据规模常达TB和PB级别。这些数据集通常来自公共互联网,也可包含私有亚马逊S3存储桶或数据库中的专有数据。

常见的预训练大型语言模型的数据集有:
- Wikipedia :提供2022年其内容的多语言提取版本。
- Common Crawl :每月对整个互联网文本的转储。

由于这些互联网数据较为杂乱,有一些变体数据集尝试清理数据以进行更高质量的模型训练,如Wiki - 40B、Colossal Clean Crawled Corpus (C4)、The Pile和RefinedWeb。其中,RefinedWeb使用统计方法过滤机器生成的文本。Falcon系列模型在名为RefinedWeb的1.5万亿标记数据上进行训练,数据在由257个ml.c5.18xlarge SageMaker实例组成的集群上处理,该集群包含18,504个CPU和37TB的CPU RAM。

2. 缩放定律

对于生成式模型,出现了一组缩放定律,描述了在固定计算预算(如GPU小时数)下模型大小和数据集大小之间的权衡。这些定律表明,增加标记数量或模型参数数量都可以提高生成式模型的性能。

通常,同时扩大两者需要更高的计算预算,计算预算通常

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值