InternLM 技术报告解读（一）- 训练框架，模型架构，数据处理

最新推荐文章于 2025-05-19 15:27:56 发布

有意思科技

最新推荐文章于 2025-05-19 15:27:56 发布

阅读量1.1k

点赞数 15

CC 4.0 BY-SA版权

分类专栏：人工智能 AIGC 文章标签：人工智能 AIGC

本文链接：https://blog.youkuaiyun.com/qq_37755518/article/details/137168260

人工智能同时被 2 个专栏收录

25 篇文章

订阅专栏

AIGC

20 篇文章

订阅专栏

本文详细介绍了大型语言模型的发展阶段，特别是预训练数据的处理方法，如InternLM2的工作。技术报告重点阐述了InternEvo训练框架、模型架构优化，以及文本、代码和长文本数据的处理流程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

大型语言模型的发展包括预训练、监督微调（SFT）和基于人类反馈的强化学习（RLHF）

等主要阶段。

过去关于LLM的技术报告很少关注预训练数据的处理。InternLM2详细描述了如何为预训练准备文本、代码和长文本数据。

如何有效地延长LLM的上下文长度目前是研究的热点，因为许多下游应用，如检索增强生成（RAG）和代理模型，依赖于长上下文。

本次技术报告就详细的阐述关于数据处理，预训练以及微调模型的技术细节。

一. 训练框架以及模型架构

1.1 InternEvo

在开始之前，我们首先选择我们的训练框架，我们使用的高效的轻量级预训练框架InternEvo进行模型训练。这个框架使得我们能够在数千个GPU上扩展模型训练。它通过数据（Data Parallelism）、张量（Tensor Parallelism,2019）、序列（Sequence Parallelism, 2023）和管道（Pipeline Parallelism, 2019）并行技术来实现这一点。为了进一步提升GPU内存效率，InternEvo整合了各种Zero Redundancy Optimizer (ZeRO, 2020)策略，显著减少了训练所需的内存占用。此外，为了提高硬件利用我们还引入了FlashAttention技术（2023）和混合精度训练（Mixed Precision Training,2017），使用BF16。

InternEvo在序列长度方面也表现出强大的扩展性，支持训练不同规模的LLM，例如

在256,000个令牌的序列长度下训练InternLM-7B，可以达到接近88%的MFU。相比之

下，DeepSpeed-Ulysses和Megatron-LM只能达到大约65%的MFU。对于更大规模的LLM，

如300亿或700亿参数的模型，训练性能的提升也同样明显。

1.2 模型架构

我们选择遵循LLaMA的结构设计原则。为了提高效率，我们将Wk、Wq和Wv矩阵合并，这在预训练阶段带来了超过5%的训练加速。此外，为了更好地支持多样化的张量并行（tp）变换，我们重新配置了矩阵布局。对于每个头的Wk、 Wq和Wv，我们采用了交错的方式，如下图所示。

二. 训练数据集

2.1 文本数据

我们的预训练数据集中的文本数据可以根据来源分为网页、论文、专利和书籍。为了将这

些来源转化为预训练数据集，我们首先将所有数据标准化为特定格式，按类型和语言分类，

并以JSON Lines (jsonl)格式存储。然后，我们对所有数据应用一系列处理步骤，包括基于

规则的过滤、数据去重、安全过滤和质量过滤。这最终形成了丰富、安全且高质量的文本

数据集。

整个数据处理流程首先将来自不同来源的数据标准化，得到格式化数据（Format data）。接着，通过应用启发式统计规则进行数据筛选，获取清洗数据（Clean data）。然后，使用局部敏感哈希（LSH）方法进行数据去重，得到去重数据（Dedup data）。随后，我们采用复合安全策略过滤数据，得到安全数据（Safe data）。针对不同来源的数据，我们采用了不同的质量过滤策略，最终获得高质量预训练数据（High-quality pre-training data）