【大模型基础_毛玉仁】2.1 大数据+大模型→新智能_大模型原理与技术毛玉仁课程ppt-优快云博客

2.大语言模型架构

大语言模型（LargeLanguageModel,LLM）。凭借着庞大的参数量和丰富的训练数据，大语言模型不仅展现出了强大的泛化能力，还催生了生成式人工智能（ArtificialIntelligenceGeneratedContent, AIGC）。

本章将深入探讨大语言模型的相关背景知识，并分别介绍Encoder-only、Encoder-Decoder 以及 Decoder-only 三种主流模型架构。简单介绍一些非Transformer架构的模型等等

截止2024年6月，国内外已见证超百种大语言模型的诞生。图2.1展示了一些具有重要影响力的模型。

图2.1: 大语言模型涌现能力的三个阶段。
在这里插入图片描述

大语言模型的发展历程三个阶段：

本节将深入剖析大型语言模型的发展历程，特别是在能力增强和新能力涌现方面的进展。我们将从模型规模和数据规模的增长出发，探讨这些因素如何共同作用，促进了模型性能的飞跃和新功能的出现。

数据规模的增长为模型提供了更丰富的信息。模型规模的不断扩大增加了模型的表达能力。

然而模型规模和数据规模的增长带来了更高的计算成本和存储需求，这要求我们在模型设计时必须在资源消耗和性能提升之间找到一个恰当的平衡点。为应对这一挑战，大语言模型的扩展法则（Scaling Laws应运而生。

大语言模型的扩展法则（Scaling Laws） 是指通过量化模型性能与模型规模、数据规模和计算资源之间的关系，来预测和优化模型性能的法则。

本章节将深入介绍两种扩展法则：

2020 年，OpenAI 团队首次探究了神经网络的性能与数据规模D以及模型规模N之间的函数关系。

根据实验结果拟合出了两个基本公式：

$\left(\frac{N}{N_c}\right)^{\alpha_N}, \quad \alpha_N \sim -0.076, \quad N_c \sim 8.8 \times 10^{13}$

$\left(\frac{D}{D_c}\right)^{\alpha_D}, \quad \alpha_D \sim -0.095, \quad D_c \sim 5.4 \times 10^{13}$

L(N)表示在数据规模固定时，不同模型规模下的交叉熵损失函数，反映了模型规模对拟合数据能力的影响。

L(D)表示在模型规模固定时，不同数据规模下的交叉熵损失函数，揭示了数据量对模型学习的影响。

L的值衡量了模型拟合数据分布的准确性，值越小表明模型对数据分布的拟合越精确，其自身学习能力也就越强大。

实验结果和相关公式表明，模型的性能与模型以及数据规模这两个因素均高度正相关。

然而，在模型规模相同的情况下，模型的具体架构对其性能的影响相对较小。因此，扩大模型规模和丰富数据集成为了提升大型模型性能的两个关键策略。

此外，OpenAI发现，总计算量C与数据量D和模型规模N的乘积近似成正比，即C≈6ND。而且模型规模的增长速度应该略快于数据规模的增长速度。两者的最优配置比例应当为 $N_{opt} \propto C^{0.73}, \quad D_{opt} \propto C^{0.27}$ 。

因此，指出了在模型规模上的投入应当略高于数据规模上的投入。

谷歌旗下DeepMind团队对“模型规模的增长速度应该略高于数据规模的增长速度”这一观点提出了不同的看法。

2022年，他们对更大范围的模型规模以及数据规模进行了深入的实验研究，并据此提出了Chinchilla扩展法则：

$\frac{A}{N^\alpha} + \frac{B}{D^\beta}$

DeepMind 最终得出数据集规模D与模型规模N的计算预算的最优配置为 $N_{opt} \propto C^{0.46}, \quad D_{opt} \propto C^{0.54}$ 。这一结果表明，数据集量D与模型规模N几乎同等重要。

此外，Chinchilla 扩展法则进一步提出，理想的数据集大小应当是模型规模的 20 倍。

例如，对于一个7B（70亿参数）的模型，最理想的训练数据集大小应为 140B（1400 亿）个Token。

但先前很多模型的预训练数据量并不够。因此，DeepMind推出了数据规模20倍于模型规模的Chinchilla模型（700 亿参数，1.4万亿Token），最终在性能上取得了显著突破。

如图2.2所示，模型训练数据规模以及参数数量的不断提升，不仅带来了上述学习能力的稳步增强，还为大模型“解锁”了一系列新的能力，例如上下文学习能力、常识推理能力、数学运算能力、代码生成能力等。

值得注意的是，这些新能力并非通过在特定下游任务上通过训练获得，而是随着模型复杂度的提升凭空自然涌现。这些能力因此被称为大语言模型的涌现能力（EmergentAbilities）。

图2.2: 大语言模型能力随模型规模涌现，图片由GPT-4o生成。
在这里插入图片描述

涌现能力往往具有突变性和不可预见性。类似于非线性系统中的“相变”，即系统在某个阈值点发生显著变化，这些能力也并没有一个平滑的、逐渐积累的过程，而是在模型达到一定规模和复杂度后，很突然地显现。

例如，在GPT系列的演变中，可以观察到一些较为典型的涌现能力。

声明：资源可能存在第三方来源，若有侵权请联系删除！