6、大语言模型基础与内存优化全解析

c6d7e8f9g

于 2025-10-22 13:30:05 发布

阅读量13

点赞数

CC 4.0 BY-SA版权

分类专栏：驾驭生成式AI的未来文章标签：大语言模型序列到序列模型预训练数据集

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/c6d7e8f9g/article/details/154515039

驾驭生成式AI的未来专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

大语言模型基础与内存优化全解析

1. 序列到序列模型与预训练数据集

序列到序列模型最初为翻译任务设计，在文本摘要任务中也非常有用。T5及其微调版本FLAN - T5是著名的编码器 - 解码器、序列到序列模型，广泛应用于各种生成式语言任务。

预训练数据集方面，生成式模型在预训练阶段通过大量训练数据学习能力，数据规模常达TB和PB级别。这些数据集通常来自公共互联网，也可包含私有亚马逊S3存储桶或数据库中的专有数据。

常见的预训练大型语言模型的数据集有：
- Wikipedia ：提供2022年其内容的多语言提取版本。
- Common Crawl ：每月对整个互联网文本的转储。

由于这些互联网数据较为杂乱，有一些变体数据集尝试清理数据以进行更高质量的模型训练，如Wiki - 40B、Colossal Clean Crawled Corpus (C4)、The Pile和RefinedWeb。其中，RefinedWeb使用统计方法过滤机器生成的文本。Falcon系列模型在名为RefinedWeb的1.5万亿标记数据上进行训练，数据在由257个ml.c5.18xlarge SageMaker实例组成的集群上处理，该集群包含18,504个CPU和37TB的CPU RAM。

2. 缩放定律

对于生成式模型，出现了一组缩放定律，描述了在固定计算预算（如GPU小时数）下模型大小和数据集大小之间的权衡。这些定律表明，增加标记数量或模型参数数量都可以提高生成式模型的性能。

通常，同时扩大两者需要更高的计算预算，计算预算通常

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。