微调系列01-一文吃透！大模型里的微调技术到底是什么？

最新推荐文章于 2025-03-12 14:38:23 发布

啊我有兔子牙

最新推荐文章于 2025-03-12 14:38:23 发布

阅读量737

点赞数 27

分类专栏：微调每日学习打卡文章标签：深度学习人工智能机器学习

本文链接：https://blog.youkuaiyun.com/Kakaxiii/article/details/145532755

版权

微调同时被 2 个专栏收录

8 篇文章

订阅专栏

每日学习打卡

6 篇文章

订阅专栏

本节深入分析大型模型微调的基本理念和多样化技术，细致介绍了LoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)等多个微调方法。详细讨论了每一种策略的基本原则、主要优点以及适宜应用场景，使得读者可以依据特定的应用要求和计算资源限制，挑选最适合的微调方案。

一、大型模型微调的基础理论

大型语言模型(LLM)的训练过程通常分为两大阶段：

阶段一：预训练阶段

在这个阶段，大型模型会在大规模的无标签数据集上接受训练，目标是使模型掌握语言的统计特征和基础知识。此期间，模型将掌握词汇的含义、句子的构造规则以及文本的基本信息和上下文。

需特别指出，预训练实质上是一种无监督学习过程。完成预训练的模型，亦即基座模型(Base Model)，拥有了普遍适用的预测能力。例如，GLM-130B模型、OpenAI的四个主要模型均属于基座模型。

阶段二：微调阶段

预训练完成的模型接下来会在针对性的任务数据集上接受更进一步的训练。这一阶段主要涉及对模型权重的细微调整，使其更好地适配具体任务。最终形成的模型将具备不同的能力，如gpt code系列、gpt text系列、ChatGLM-6B等。

那么，何为大型模型微调？

直观上，大型模型微调即是向模型“输入”更多信息，对模型的特定功能进行“优化”，通过输入特定领域的数据集，使模型学习该领域知识，从而优化大模型在特定领域的NLP任务中的表现，如情感分析、实体识别、文本分类、对话生成等。

为何微调至关重要？

其核心理由是，微调能够“装备”大模型以更精细化的功能，例如整合本地知识库进行搜索、针对特定领域问题构建问答系统等。

（对领域的预测概率发生改变，因为大模型本质上是一个根据“看得见的前文”和“看不见的经验知识”，预测后面可能出现的内容的模型，当你输入“我爱出...”的时候，每个人的经验数据导致的预测不一样，微调就是增加你经常做的回答，提升偏向于你的生成概率）

以VisualGLM为例，作为一个通用多模态模型，当应用于医学影像判别时，就需要输入医学影像领域的数据集以进行微调，以此提升模型在医学影像图像识别方面的表现。

这与机器学习模型的超参数优化类似，只有在调整超参数后，模型才能更好地适应当前数据集；同时，大型模型可以经历多轮微调，每次微调都是对模型能力的优化，即我们可以在现有的、已经具备一定能力的大模型基础上进一步进行微调。

二、大型模型的经典网络结构

以GPT系列中的Transformer为例，这种深度学习模型结构通过自注意力机制等技巧解决了相关问题。正是得益于Transformer架构，基于GPT的大型语言模型取得了显著的进展。

Transformer模型架构包含了众多模块，而我们讨论的各种微调技术通常是对这些模块中的特定部分进行优化，以实现微调目的。

要深入理解各类微调手段，首先需要对网络架构有一个基本的认识。以下以Transformer为例，阐述各个模块的作用：

输入嵌入层（Input Embedding）
1. 输入（Inputs）：模型的输入环节，通常为单词或符号序列。
2. 输入嵌入（Input Embedding）：此步骤将输入序列（例如句中的每个单词）转化为嵌入表示，即能够表征单词语义信息的高维向量。
3. 位置编码（Positional Encoding）：鉴于Transformer不依赖序列，位置编码旨在提供序列中单词位置的信息，这些编码添加到输入嵌入中，确保模型即便同时处理输入也能够利用单词的顺序信息。
编码器层（Encoder，左边）
1. Nx：指示有N个相同的编码器层叠加而成。每个编码器层包括两个主要子层：多头自注意力机制和前馈神经网络。
  1. 多头自注意力（Multi-Head Attention）：注意力机制允许模型在处理每个单词时考虑到输入序列中的所有单词。多头部分表示模型并行学习输入数据的不同表示。
  2. 残差连接和归一化（Add & Norm）：注意力层后面跟着残差连接和层归一化，有助于防止深层网络中的梯度消失问题，并稳定训练过程。
    
             - 想象一个神经网络就像是一个多层的工厂流水线。每一层就像是流水线上的一个工人，负责对输入的数据进行一些加工。比如，一个简单的图像识别神经网络可能有很多层，最开始的几层可能是识别图像中的边缘，后面的层可能是根据这些边缘来识别形状，再后面的层可能是根据形状来识别物体。一个有很多这样层层堆叠的神经网络就是深层网络。
    
             - 梯度可以理解为是一个“向导”。在神经网络中，我们希望通过调整网络中的参数（比如神经元之间连接的权重）来让网络的输出尽可能地接近正确答案。梯度就告诉我们应该朝着哪个方向去调整这些参数。比如你在爬山，梯度就像是山上每个点的坡度指示牌，它告诉你往哪个方向走可以最快地爬到山顶（或者最快地下山）。
    
             - 假设我们的神经网络有10层（实际上可能会更多）。在反向传播算法中，梯度是从最后一层往前一层一层传递的。在这个过程中，每经过一层，梯度可能会乘以一个小于1的数（这个数是由这一层的激活函数和权重等因素决定的）。
    
             - 例如，有一个非常简单的情况，每一层传递梯度的时候都乘以0.5。那么从第10层往前传递，到第1层的时候，梯度就变成了\((0.5)^{9}\)（因为经过了9次传递），这个数是非常小的。就好像你在传递一个消息，每经过一个人，消息的强度就减弱一半，经过很多人之后，消息就几乎听不到了。
    
             - 这就导致前面的层几乎接收不到有效的梯度信息，也就没办法很好地调整自己的参数。这就像前面流水线上的工人因为没有得到足够明确的“指示”，就不知道该怎么更好地加工产品了。所以，整个神经网络的学习就会变得很困难，这就是深层网络中的梯度消失问题。
    
            】
    1. 什么是深层网络
    2. 什么是梯度
    3. 梯度消失问题是怎么出现的
2. 前馈神经网络（Feed Forward）：全连接神经网络处理自注意力层的输出，包含两个线性变换和一个非线性激活函数。
解码器层（Decoder，右侧）
1. 解码器亦包含多个相同的层，每层包括三个主要子层：掩蔽的多头自注意力机制、多头自注意力机制和前馈神经网络。
2. 掩蔽多头自注意力（Masked Multi-Head Attention）：与编码器的多头自注意力机制类似，但为确保解码顺序性，掩蔽操作确保预测仅依赖于之前的输出。
3. 前馈神经网络（Feed Forward）：与编码器相同，每个子层之后也有加法和归一化步骤。
输出嵌入层和输出过程
解码器端的嵌入层将目标序列转换为向量形式。
1. 线性层（Linear）和Softmax层：解码器的输出通过线性层映射到一个更大的词汇空间，Softmax函数将输出转换为概率分布。
3.   三、大型模型微调的技术手段
  
    大型模型的全面微调（Fine-tuning）涉及调整所有层和参数，以适配特定任务。此过程通常采用较小的学习率和特定任务的数据，可以充分利用预训练模型的通用特征，但可能需要更多计算资源。
  
    参数高效微调（Parameter-Efficient Fine-Tuning，PEFT）旨在通过最小化微调参数数量和计算复杂度，提升预训练模型在新任务上的表现，从而减轻大型预训练模型的训练负担。即使在计算资源受限的情况下，PEFT技术也能够利用预训练模型的知识快速适应新任务，实现有效的迁移学习。因此，PEFT不仅能提升模型效果，还能显著缩短训练时间和计算成本，使更多研究者能够参与到深度学习的研究中。PEFT包括LoRA、QLoRA、适配器调整(Adapter Tuning)、前缀调整(Prefix Tuning)、提示调整(Prompt Tuning)、P-Tuning及P-Tuning v2等多种方法。
  
    以下图表示了7种主流微调方法在Transformer网络架构中的作用位置及其简要说明，接下来将详细介绍每一种方法。
5.   1、LoRA
  
    LoRA（Low-Rank Adaptation）是一种旨在微调大型预训练语言模型（如GPT-3或BERT）的技术。其核心理念在于，在模型的决定性层次中引入小型、低秩的矩阵来实现模型行为的微调，而无需对整个模型结构进行大幅度修改。这种方法的优势在于，在不显著增加额外计算负担的前提下，能够有效地微调模型，同时保留模型原有的性能水准。
  
    LoRA的操作流程如下：
6. 确定微调目标权重矩阵：首先在大型模型（例如GPT）中识别出需要微调的权重矩阵，这些矩阵一般位于模型的多头自注意力和前馈神经网络部分。
7. 引入两个低秩矩阵：然后，引入两个维度较小的低秩矩阵A和B。假设原始权重矩阵的尺寸为dd，则A和B的尺寸可能为dr和r*d，其中r远小于d。
8. 计算低秩更新：通过这两个低秩矩阵的乘积AB来生成一个新矩阵，其秩（即r）远小于原始权重矩阵的秩。这个乘积实际上是对原始权重矩阵的一种低秩近似调整。
9. 结合原始权重：最终，新生成的低秩矩阵AB被叠加到原始权重矩阵上。因此，原始权重经过了微调，但大部分权重维持不变。这个过程可以用数学表达式描述为：新权重 = 原始权重 + AB。
10. 以一个具体实例来说，假设我们手头有一个大型语言模型，它通常用于执行广泛的自然语言处理任务。现在，我们打算将其微调，使其在处理医疗健康相关的文本上更为擅长。
11. 采用LoRA方法，我们无需直接修改模型现有的大量权重。相反，只需在模型的关键部位引入低秩矩阵，并通过这些矩阵的乘积来进行有效的权重调整。这样一来，模型就能更好地适应医疗健康领域的专业语言和术语，同时也避免了大规模权重调整和重新训练的必要。
12.     【它没有改动原模型，而是将改动增加在外部，这样不仅见效快，也不会影响原来的模型性能，你们公司原来是生产玩具熊的，现在来生产狗，不用从头开始培训。找两个新员工在关键生产点负责改变原来的工作（比如耳朵处），而不是改原来的生产线】
  
    2、QLoRA
  
    QLoRA（Quantized Low-Rank Adaptation）是一种结合了LoRA（Low-Rank Adaptation）方法与深度量化技术的高效模型微调手段。QLoRA的核心在于：
  
    量化技术：QLoRA采用创新的技术将预训练模型量化为4位。这一技术包括低精度存储数据类型（4-bit NormalFloat，简称NF4）和计算数据类型（16-bit BrainFloat）。这种做法极大地减少了模型存储需求，同时保持了模型精度的最小损失。
  
    量化操作：在4位量化中，每个权重由4个比特表示，量化过程中需选择最重要的值并将它们映射到16个可能的值之一。首先确定量化范围（例如-1到1），然后将这个范围分成16个区间，每个区间对应一个4-bit值。然后，原始的32位浮点数值将映射到最近的量化区间值上。
  
    【假设我们要量化一组表示温度的数字，设定量化范围是 -10℃到 10℃ 。在4位量化里，4个比特能表示16个值（从0到15 ）。把 -10℃到 10℃ 这个范围分成16个区间，每个区间大小是 20℃÷16 = 1.25℃ 。
  
    如原始温度值是3.5℃ ，它在第4个区间（从 -6.25℃到 -5℃ 是第1个区间，以此类推），对应4-bit值为3 。原始用32位浮点数表示的3.5℃ ，就被量化映射到这个4-bit值3 。】
  
    微调阶段：在训练期间，QLoRA先以4-bit格式加载模型，训练时将数值反量化到bf16进行训练，这样大幅减少了训练所需的显存。例如，33B的LLaMA模型可以在24 GB的显卡上进行训练。
  
    量化过程的挑战在于设计合适的映射和量化策略，以最小化精度损失对性能的影响。在大型模型中，这种方法可以显著减少内存和计算需求，使得在资源有限的环境下部署和训练成为可能。
  
    【把一个32份的拼图合并为8份拼图】
  
    3、适配器调整（Adapter Tuning）
  
    与LoRA技术类似，适配器调整的目标是在保留预训练模型原始参数不变的前提下，使模型能够适应新的任务。适配器调整的方法是在模型的每个层或选定层之间插入小型神经网络模块，称为“适配器”。这些适配器是可训练的，而原始模型的参数则保持不变。
  
    适配器调整的关键步骤包括：
  
    以预训练模型为基础：初始阶段，我们拥有一个已经经过预训练的大型模型，如BERT或GPT，该模型已经学习了丰富的语言特征和模式。
  
    插入适配器：在预训练模型的每个层或指定层中，我们插入适配器。适配器是小型的神经网络，一般包含少量层次，并且参数规模相对较小。
  
    【做狗的工厂加一个小流水线环节】
  
    维持预训练参数不变：在微调过程中，原有的预训练模型参数保持不变。我们不直接调整这些参数，而是专注于适配器的参数训练。
  
    训练适配器：适配器的参数会根据特定任务的数据进行训练，使适配器能够学习如何根据任务调整模型的行为。
  
    针对任务的调整：通过这种方式，模型能够对每个特定任务进行微调，同时不影响模型其他部分的通用性能。适配器有助于模型更好地理解和处理与特定任务相关的特殊模式和数据。
  
    高效与灵活：由于只有部分参数被调整，适配器调整方法相比于全模型微调更为高效，并且允许模型迅速适应新任务。例如，如果我们有一个大型文本生成模型，它通常用于执行广泛的文本生成任务。若要将其微调以生成专业的金融报告，我们可以在模型的关键层中加入适配器。在微调过程中，仅有适配器的参数会根据金融领域的数据进行更新，使得模型更好地适应金融报告的写作风格和术语，同时避免对整个模型架构进行大幅度调整。
  
    LoRA与适配器调整的主要区别在于：
  
    LoRA：在模型的权重矩阵中引入低秩矩阵来实现微调。这些低秩矩阵作为原有权重矩阵的修改项，在实际计算时对原有权重矩阵进行调整。
  
    适配器调整：通过在模型各层中添加小型神经网络模块，即“适配器”，来实现微调。适配器独立于模型的主体结构，仅适配器的参数在微调过程中更新，而模型的其他预训练参数保持不变。
  
    4、前缀调整（Prefix Tuning）
  
    与传统的微调范式不同，前缀调整提出了一种新的策略，即在预训练的语言模型（LM）输入序列前添加可训练、任务特定的前缀，从而实现针对不同任务的微调。这意味着我们可以为不同任务保存不同的前缀，而不是为每个任务保存一整套微调后的模型权重，从而节省了大量的存储空间和微调成本。
  
    【首先，我们要意识到，大模型的在预训练的语料庞大到我们无法想象，它是一个“万事通”，只不过没有重点，工作流程不清晰，就会导致效果达不到预期，它只会给你初始资料库中，最可能出现的结果，对特定领域的效果就会比较差。但是，它是有完成好这种单独任务的能力的。这个相当于生产线不变，在开始前，跟布料这些原材料一起送进去的时候，给他一个小纸条，做熊的给一个小纸条，做小兔子的给一个小纸条。】
  
    前缀实际上是一种连续可微的虚拟标记（Soft Prompt/Continuous Prompt），与离散的Token相比，它们更易于优化并且效果更佳。这种方法的优势在于不需要调整模型的所有权重，而是通过在输入中添加前缀来调整模型的行为，从而节省大量的计算资源，同时使得单一模型能够适应多种不同的任务。前缀可以是固定的（即手动设计的静态提示）或可训练的（即模型在训练过程中学习的动态提示）。
14. 5、提示调整（Prompt Tuning）
  
  提示调整是一种在预训练语言模型输入中引入可学习嵌入向量作为提示的微调方法。（小纸条交给一个人发，训练那个人识别输入是什么，他来认他来发）。这些可训练的提示向量在训练过程中更新，以指导模型输出更适合特定任务的响应。提示调整与前缀调整都涉及在输入数据中添加可学习的向量，这些向量是在输入层添加的，但两者的策略和目的不同：
  
  提示调整：旨在模仿自然语言中的提示形式，将可学习向量（通常称为提示标记）设计为模型针对特定任务生成特定类型输出的引导。这些向量通常被视为任务指导信息的一部分，倾向于使用较少的向量来模仿传统的自然语言提示。前缀调整：可学习前缀更多地用于提供输入数据的直接上下文信息，作为模型内部表示的一部分，可以影响整个模型的行为。以下是两者的训练示例，以说明它们的不同：
  
  提示调整示例：输入序列: [Prompt1][Prompt2] “这部电影令人振奋。”。问题: 评价这部电影的情感倾向。答案: 模型需要预测情感倾向（例如“积极”）
  
  提示: 没有明确的外部提示，[Prompt1][Prompt2]作为引导模型的内部提示，这里的问题是隐含的，即判断文本中表达的情感倾向。
  
    前缀调整示例：
  
    输入序列: [Prefix1][Prefix2][Prefix3] “I want to watch a movie.”
  
    问题: 根据前缀生成后续的自然语言文本。
  
    答案: 模型生成的文本，如“that is exciting and fun.”
  
    提示: 前缀本身提供上下文信息，没有单独的外部提示。
  
  6、P-Tuning
  
  P-Tuning（基于提示的微调）和提示调整都是为了调整大型预训练语言模型（如GPT系列）以适应特定任务而设计的技术。两者都利用预训练的语言模型执行特定的下游任务，如文本分类、情感分析等，并使用某种形式的“提示”或“指导”来引导模型输出，以更好地适应特定任务。
  
  提示调整与P-Tuning的主要区别在于：
  
  提示调整：使用静态的、可训练的虚拟标记嵌入，在初始化后保持固定，除非在训练过程中更新。这种方法相对简单，因为它只涉及调整一组固定的嵌入参数，在处理多种任务时表现良好，但可能在处理特别复杂或需要细粒度控制的任务时受限。
  
  P-Tuning：使用一个可训练的LSTM模型（称为提示编码器prompt_encoder）来动态生成虚拟标记嵌入，允许根据输入数据的不同生成不同的嵌入，提供更高的灵活性和适应性，适合需要精细控制和理解复杂上下文的任务。这种方法相对复杂，因为它涉及一个额外的LSTM模型来生成虚拟标记嵌入。
  
  P-Tuning中使用LSTM（长短期记忆网络）作为生成虚拟标记嵌入的工具，利用了LSTM的以下优势：
  
  更好的适应性和灵活性：LSTM可以捕捉输入数据中的时间序列特征，更好地理解和适应复杂的、顺序依赖的任务，如文本生成或序列标注。
  
  改进的上下文理解：LSTM因其循环结构，擅长处理和理解长期依赖关系和复杂的上下文信息。
  
  参数共享和泛化能力：在P-Tuning中，LSTM模型的参数可以在多个任务之间共享，这提高了模型的泛化能力，并减少了针对每个单独任务的训练需求。而在提示调整中，每个任务通常都有其独立的虚拟标记嵌入，这可能限制了跨任务泛化的能力。
  
  这些特性使得LSTM特别适合处理复杂任务和需要细粒度控制的应用场景。然而，这些优势也伴随着更高的计算复杂度和资源需求，因此在实际应用中需要根据具体需求和资源限制来权衡使用LSTM的决策。
  
  7、P-Tuning v2
  
  P-Tuning v2是P-Tuning的进一步改进版，在P-Tuning中，连续提示被插入到输入序列的嵌入层中，除了语言模型的输入层，其他层的提示嵌入都来自于上一层。这种设计存在两个问题：
  
  第一，它限制了优化参数的数量。由于模型的输入文本长度是固定的，通常为512，因此提示的长度不能过长。
  
  第二，当模型层数很深时，微调时模型的稳定性难以保证；模型层数越深，第一层输入的提示对后面层的影响难以预测，这会影响模型的稳定性。
  
  P-Tuning v2的改进在于，不仅在第一层插入连续提示，而是在多层都插入连续提示，且层与层之间的连续提示是相互独立的。这样，在模型微调时，可训练的参数量增加了，P-Tuning v2在应对复杂的自然语言理解(NLU)任务和小型模型方面，相比原始P-Tuning具有更出色的效能。
  
  除了以上PEFT，当前还存在PILL（Pluggable Instruction Language Learning）、SSF（Scaling & Shifting Your Features）等其他类型的微调方法。
  
  PILL是PEFT的一个特定实现，特别关注于如何通过插入可训练的模块或插件来提升模型的任务适应性。这些插件被设计为与原始模型协同工作，以提高模型在处理特定任务时的效率和效果。
  
  SSF核心思想是对模型的特征（即模型层的输出）进行缩放（Scaling）和位移（Shifting）。简单来说，就是通过调整特征的比例和偏移量来优化模型的性能。这种方法可以在改善模型对特定任务的响应时，不需要调整或重新训练模型中的所有参数，从而在节省计算资源的同时保持或提升模型性能。这对于处理大规模模型特别有效，因为它减少了训练和调整所需的资源和时间。
  
  四、大模型的微调策略
  
  综上所述，微调是一种强大的工具，它能够使大型预训练模型适应于特定的任务和应用场景。正确选择和应用微调策略对于实现高效且有效的模型性能至关重要。
  
  1、微调与迁移学习：微调实际上是迁移学习的一个实例，其中预训练的模型（通常在大型通用数据集上训练）被用作特定任务的起点。这种方法使得即使是对于小数据集的任务，也可以实现高效的学习
  
  2、选择微调策略：选择哪种微调方法取决于多个因素，包括任务的复杂性、可用的数据量、计算资源和期望的性能。
  
  例如，对于需要细粒度控制的复杂任务，P-Tuning v2或LSTM基础的P-Tuning可能更适合。而对于计算资源有限的情况，可以选择LoRA或Adapter Tuning等方法。
  
  3、微调与模型泛化能力：微调时需要注意的一个关键问题是保持模型的泛化能力。过度的微调可能会导致模型对特定训练数据过拟合，而忽略了其在实际应用中的泛化能力。