6、大语言模型训练：从数据集到内存优化

原创于 2025-09-15 12:30:14 发布 · 37 阅读

·

0

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#大语言模型 #预训练数据集 #缩放定律

驾驭生成式AI：从理论到实践专栏收录该内容

22 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

大语言模型训练：从数据集到内存优化

1. 序列到序列模型与预训练数据集

序列到序列模型最初为翻译任务设计，在文本摘要任务中也非常有用。T5 及其微调版本 FLAN - T5 是著名的编码器 - 解码器、序列到序列模型，广泛应用于多种生成式语言任务。

预训练数据集对于生成式模型至关重要，模型在预训练阶段通过大量训练数据（通常达到 TB 甚至 PB 级别）学习能力。这些数据集常来自公共互联网，也可能包含私有 Amazon S3 存储桶或数据库中的专有数据。

常见的预训练大型语言模型的数据集有 Wikipedia 和 Common Crawl。Wikipedia 提供了 2022 年其内容的多语言摘录，Common Crawl 则是每月对整个互联网文本的转储。不过，这类互联网数据比较杂乱，因此有一些变体数据集，如 Wiki - 40B、Colossal Clean Crawled Corpus (C4)、The Pile 和 RefinedWeb 等，它们试图清理数据以进行更高质量的模型训练。其中，RefinedWeb 尤其尝试使用统计方法过滤出机器生成的文本，以确定文本是人类生成还是机器生成。

Falcon 系列模型在名为 RefinedWeb 的 1.5 万亿个标记的数据上进行训练。这些数据在由 257 个 ml.c5.18xlarge SageMaker 实例组成的集群上处理，该集群包含 18,504 个 CPU 和 37TB 的 CPU 内存。

2. 缩放定律

对于生成式模型，已经出现了一组缩放定律，描述了在固定计算预算（如 GPU 小时数）下模型大小和数据集大小之间的权衡。这些定律表明，通过增加标记数量或模型参数

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。