从早期的 GPT 模型到如今复杂的开放式 LLM,大型语言模型 (LLM) 的发展已经取得了长足的进步。最初,LLM 训练过程仅侧重于预训练,但后来扩展到包括预训练和后训练。后训练通常包括监督指令微调和校准,这是由 ChatGPT 推广的。
自 ChatGPT 首次发布以来,训练方法已不断发展。在本文中,我回顾了训练前和训练后方法的最新进展,特别是最近几个月取得的进展。
概述 LLM 开发和培训流程,重点介绍本文讨论的新的预培训和后培训方法
每个月都有数百篇 LLM 论文提出新技术和新方法。然而,了解哪些方法在实践中真正有效的最佳方法之一是查看最新最先进模型的训练前和训练后流程。幸运的是,过去几个月已经发布了四篇重要的新 LLM,并附有相对详细的技术报告。
在本文中,我重点介绍以下模型的预训练和后训练流程:
-
阿里巴巴的 Qwen 2
-
Apple Intelligence Foundation 语言模型
-
谷歌的 Gemma 2
-
Meta AI 的 Llama 3.1
这些模型按照其各自技术论文在 arXiv.org 上的发表日期的顺序呈现,这也与它们的字母顺序一致。
1.阿里巴巴的Qwen 2
让我们从Qwen 2开始,这是一个非常强大的 LLM 模型系列,可以与其他主要 LLM 相媲美。
1.1 Qwen 2 概述
在查看Qwen 2 技术报告中讨论的预训练和后训练方法之前,让我们简单总结一下一些核心规格。
Qwen 2 模型有 5 种类型。有 4 种常规(密集)LLM,大小分别为 5 亿、15 亿、70 亿和 720 亿个参数。此外,还有一个 Mixture-of-Experts 模型,具有 570 亿个参数,其中同时激活了 140 亿个参数。(由于架构细节不是这次的重点,我不会过多地介绍 Mixture-of-Experts 模型;但是,简而言之,这与 Mistral AI 的 Mixtral 类似,只是它有更多活跃的专家。有关高级概述,请参阅我的“模型合并、专家混合和迈向更小的 LLM”文章中的Mixtral 架构部分。)
Qwen 2 LLM 的突出特点之一是其出色的多语言能力,涵盖 30 种语言。它们还拥有惊人的 151,642 个标记词汇表(作为参考,Llama 2 使用 32k 个词汇表,而 Llama 3.1 使用 128k 个标记词汇表);根据经验,将词汇表大小增加 2 倍可将输入标记数量减少 2 倍,因此 LLM 可以将更多标记放入相同的输入中。此外,它特别有助于处理多语言数据和编码,以涵盖标准英语词汇表之外的单词。
以下是 MMLU 基准与后面介绍的其他 LLM 的简要比较。(请注意,MMLU 是一个多项选择基准,因此有其局限性;然而,它仍然是报告 LLM 表现的最流行的方法之一。)
最新开放权重模型的 MMLU 基准分数(值越高越好)。我从每个模型的官方研究论文中收集了此图的分数。
1.2 Qwen 2 预训练
Qwen 2 团队在 7 万亿个训练 token 上训练了 15 亿、70 亿和 720 亿个参数模型,这是一个合理的规模。作为比较,Llama 2 模型是在 2 万亿个 token 上训练的,而 Llama 3.1 模型是在 15 万亿个 token 上训练的。
有趣的是,5 亿个参数的模型是在 12 万亿个 token 上训练的。然而,研究人员并没有在更大的 12 万亿个 token 数据集上训练其他模型,因为他们在训练过程中没有观察到任何改进,而且额外的计算成本也是不合理的。
重点领域之一是改进数据过滤流程以删除低质量数据并增强数据混合以增加数据多样性——我们稍后在研究其他模型时将重新讨论这个主题。
有趣的是,他们还使用 Qwen 模型(虽然他们没有具体说明细节,但我认为他们指的是上一代 Qwen 模型)来合成额外的预训练数据。
此外,他们分两个阶段进行训练:常规预训练,然后是长上下文训练。后者在预训练的最后阶段使用“高质量、长数据”将上下文长度从 4,096 个 token 增加到 32,768 个 token。
Qwen 2 预训练技术总结。“持续预训练”是指 2 阶段预训练,研究人员从常规预训练开始,然后进行长上下文持续预训练。
1.3 Qwen 2 后训练
Qwen 2 团队采用了流行的两阶段后训练方法,首先是监督指令微调 (SFT),该方法应用于 2 个时期的 500,000 个示例。此阶段旨在提高模型在预定场景中的响应准确性。
在 SFT