LLM预训练和后训练新范式

大型语言模型(LLM)的发展已经取得了长足的进步,从早期的GPT模型到我们今天拥有的复杂的开放权重LLM。最初,LLM的训练过程仅集中于预训练,但后来扩展到包括预训练和后训练。后训练通常包括监督指令微调和对齐,这些是由ChatGPT普及的。

自ChatGPT首次发布以来,训练方法已经发生了变化。在本文中,我回顾了最近几个月在预训练和后训练方法论方面的最新进展。

本文讨论的新预训练和后训练方法论,概述了LLM开发和训练流程

每个月都有数百篇LLM论文提出新技术和方法。然而,实际上验证什么方法有效的最佳途径之一是查看最新最先进模型的预训练和后训练流程。幸运的是,在过去的几个月里,有四个主要的新LLM发布,并附有相对详细的技术报告。

在本文中,我将重点介绍以下模型的预训练和后训练流程:

  1. 阿里巴巴的 Qwen 2

  2. 苹果智能基础语言模型

  3. 谷歌的 Gemma 2

  4. Meta AI 的 Llama 3.1

这些模型是根据各自技术论文在 http://arxiv.org/ 上的发表日期顺序排列的,恰好也与它们的字母顺序一致。

1. 阿里巴巴的 Qwen 2

首先介绍一下 https://arxiv.org/abs/2407.10671,这是一个非常强大的LLM模型系列,与其他主要的LLM竞争。然而,由于某些原因,它比Meta AI、微软和谷歌的开放权重模型少受欢迎。

1.1 Qwen 2 概述

在查看 https://arxiv.org/abs/2407.10671中讨论的预训练和后训练方法之前,我们先简要总结一些核心规格。

Qwen 2 模型有5种类型。有4个常规(密集)LLM,参数量分别为5亿、15亿、70亿和720亿。此外,还有一个57亿参数的专家混合模型,其中有14亿参数同时被激活。(由于架构细节不是这次的重点,我不会深入讨论专家混合模型;简而言之,这类似于Mistral AI的Mixtral,只是它有更多的活跃专家。高级概述请参见我的 https://magazine.sebastianraschka.com/p/research-papers-in-january-2024 中的 https://magazine.sebastianraschka.com/i/141130005/mixtral-architecture 部分。)

Qwen 2 LLM的一个突出特点是其在30种语言中的良好多语言能力。它们还拥有惊人的151,642个词汇量(作为参考,Llama 2使用32k词汇量,Llama 3.1使用128k词汇量);根据经验,词汇量增加2倍会减少输入词数2倍,因此LLM可以在同一输入中容纳更多词。它特别有助于多语言数据和编码,以覆盖标准英语词汇之外的词语。

下面是与其他LLM的简要MMLU基准测试比较。(请注意,MMLU是一个多项选择的基准测试,因此有其局限性;然而,它仍然是报告LLM性能的最流行方法之一。)

最新开放权重模型的MMLU基准测试得分(值越高越好)。我从每个模型的官方研究论文中收集了这些得分用于此图表。

1.2 Qwen 2 预训练

Qwen 2团队在7万亿训练数据上训练了15亿、70亿和720亿参数模型,这是一个合理的规模。作为比较,Llama 2模型在2万亿数据上训练,而Llama 3.1模型在15万亿数据上训练。

有趣的是,5亿参数模型是在12万亿数据上训练的。然而,研究人员并没有在更大的12万亿数据集上训练其他模型,因为他们在训练过程中没有观察到任何改进,并且额外的计算成本也不合理。

重点之一是改进数据过滤流程,以去除低质量数据,并增强数据混合以增加数据多样性——这是我们在稍后检查其他模型时将重新讨论的主题。

有趣的是,他们还使用了Qwen模型(尽管他们没有具体说明,但我认为他们指的是上一代的Qwen模型)来合成额外的预训练数据。预训练还涉及“多任务指令数据……以增强上下文学习和指令遵循能力”。

此外,他们进行了两个阶段的训练:常规预训练和长上下文训练。后者在预训练结束阶段将上下文长度从4,096个数据增加到32,768个数据,使用的是“高质量、长篇数据”。

Qwen 2预训练技术总结。“持续预训练”是指两阶段预训练,即研究人员从常规预训练开始,然后进行长上下文持续预训练。

(不幸的是,技术报告的另一个主题是关于数据集的详细信息很少,因此如果我的报告看起来不太详细,这是由于缺乏公开可用的信息。)

1.3 Qwen 2 后训练

Qwen 2 团队采用了流行的两阶段后训练方法,首先是监督指令微调(SFT),在 500,000 个示例上进行了 2 个周期。此阶段旨在提高模型在预定场景中的响应准确性。

<think>好的,我现在需要回答用户关于SFT(监督微调)的训练方法范式的问题,特别是小样本微调的情况。首先,我得先确认用户提到的SFT具体指什么。根据提供的引用内容,引用[1]提到监督微调(Supervised Fine-Tuning)使用标记数据对LLM进行训练,输入输出数据对组成,是相对简单有效的方法。而引用[3]提到在资源充足时建议使用SFT全量微调,部分参数微调可能不稳定。所以用户可能想了解SFT的具体训练方法、范式,以及在小样本情况下的应用。 首先,我需要明确SFT的基本概念,然后整理其核心方法。根据引用内容,SFT属于监督微调,使用有标签的数据对预训练模型进行调整。接下来,我需要分步骤解释SFT的训练范式,可能包括全量微调、部分参数微调,以及小样本下的策略。同时,结合引用中提到的信息,比如全量微调在资源充足时推荐,部分参数微调可能效果不稳定,需要提到这点。 然后,小样本微调是用户关注的点,需要说明在小数据情况下如何应用SFT。可能需要提到数据增强、模型调整策略(如冻结部分层)、正则化方法防止过拟合等。此外,引用[3]提到指令微调(instruction tuning),这可能与小样本相关,需要解释其如何帮助模型泛化。 另外,用户的问题还涉及机器学习深度学习,可能需要对比传统微调与SFT的区别,强调SFT在预训练模型上的应用。需要确保回答结构清晰,分点说明,比如训练步骤、核心方法、小样本策略、与传统方法的对比等。 还要注意引用文献的位置,比如在提到监督微调时引用[1],指令微调引用[3],预训练方法如MLM引用[2]。需要自然地插入引用标识,避免突兀。 最后,生成相关问题时要围绕SFT扩展,比如优化方法、应用场景、与小样本结合等,确保问题相关且有深度。需要检查LaTeX格式是否正确,所有数学表达式用$...$,独立公式用$$...$$,并正确使用中文回答。</think>### SFT(监督微调)的训练方法与范式 监督微调(Supervised Fine-Tuning, SFT)是一种通过有标签数据调整预训练模型参数的微调范式,广泛应用于自然语言处理、计算机视觉等领域[^1]。以下是其核心方法与范式的详细说明: --- #### **1. SFT的基本训练范式** SFT的训练过程可分为以下步骤: 1. **预训练模型选择** 使用大规模预训练模型(如BERT、GPT或ImageNet预训练模型)作为基础模型,这些模型已从通用数据中学习到丰富的特征表示[^2]。 2. **任务适配** 根据下游任务调整模型结构: - 分类任务:添加全连接层Softmax输出层。 - 生成任务(如文本生成):保留解码器结构并调整输出维度。 3. **监督训练** 使用标记数据对模型进行端到端训练,优化目标为: $$ \min_{\theta} \sum_{(x,y) \in D} \mathcal{L}(f_\theta(x), y) $$ 其中$\theta$为模型参数,$\mathcal{L}$为损失函数(如交叉熵),$D$为标注数据集。 --- #### **2. SFT的核心方法** 根据参数调整范围,SFT可分为两类: 1. **全量微调(Full Fine-Tuning)** - **方法**:调整预训练模型的所有参数。 - **适用场景**:数据量充足且计算资源允许(如GPU显存充足)时,通常效果最佳[^3]。 - **示例**:在文本分类任务中,使用标注的10万条数据微调BERT模型。 2. **部分参数微调** - **方法**:仅调整部分层(如顶层或添加的任务特定层),冻结其他参数。 - **常见技术**: - **Adapter Tuning**:在Transformer层中插入轻量级适配模块。 - **LoRA(Low-Rank Adaptation)**:通过低秩矩阵分解调整参数。 - **优点**:计算成本低,适合小样本场景;但稳定性较差,部分任务效果可能下降。 --- #### **3. 小样本场景下的SFT策略** 当标注数据有限时,可采用以下方法提升效果: 1. **数据增强** - 对文本数据进行回译、同义词替换,或对图像添加旋转、裁剪等变换。 2. **正则化技术** - 使用Dropout、权重衰减(Weight Decay)或早停法(Early Stopping)防止过拟合。 3. **模型初始化策略** - 冻结底层参数(保留通用特征),仅微调顶层参数。 4. **指令微调(Instruction Tuning)** - 将任务描述作为输入的一部分,例如: ```text 输入:"翻译为英文:今天天气很好。" 输出:"The weather is nice today." ``` - 通过显式指令引导模型泛化,减少对数据量的依赖。 --- #### **4. 与传统机器学习的对比** | 维度 | 传统机器学习 | SFT | |--------------|--------------------|-------------------| | **数据需求** | 需大量标注数据 | 依赖预训练模型,小样本亦可微调 | | **特征工程** | 人工设计特征 | 自动提取高层次特征 | | **计算成本** | 较低 | 较高(需GPU支持) | ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值