LLaMA - Factory与LoRA大模型微调之LoRA原理详解

最新推荐文章于 2025-10-31 15:30:20 发布

原创最新推荐文章于 2025-10-31 15:30:20 发布 · 1.2k 阅读

CC 4.0 BY-SA版权

文章标签：

30 篇文章

订阅专栏

部署运行你感兴趣的模型镜像

在大模型微调领域，使用封装良好的框架能简化流程。学习过程聚焦LLaMA - Factory框架与LoRA微调方法实操，并在实操前先深入回顾LoRA原理。

定义与目的：LoRA（Low - Rank Adaptation）即低秩适应，通过冻结原模型，添加额外训练的低秩矩阵，微调得到垂直领域大模型。新矩阵公式为 $W_0x + \Delta Wx$ ， $W_0$ 代表原冻结的大模型基座矩阵， $ΔW\Delta W$ 是LoRA训练的新矩阵部分，二者结合形成新的专业领域大模型。
低秩矩阵理解
- 低秩含义：矩阵的秩指线性独立行或列的最大数目。低秩意味着用较少参数表示矩阵信息，从而节省内存空间。例如，一个矩阵若能被其他矩阵线性表示，则其在秩的计算中可被替代，相应秩会降低。
- 举例说明：在购买水果花费的例子中，若存在数据依赖关系，某些数据行可由其他行表示，这些可被替代的数据对应的矩阵秩较低。如购买苹果和香蕉的花费数据，当存在倍数或和的关系时，部分数据行在矩阵秩计算中可忽略。
- 矩阵表示：以小明出行时间距离为例，原本复杂的矩阵可简化为更简单的形式，通过低秩矩阵表示，减少参数数量。如用一行加一列的方式代替原来多行多列的数据，在大规模矩阵中，这种方式能显著节省存储空间。

过参数化模型指模型参数数量远超完成特定任务所需，在某专精领域，大量参数并非都有用，如通用大模型用于特定专业领域时，很多其他领域参数冗余。因此，在专精领域应用中，应提炼与该领域相关的少量参数，让模型专注专业任务，这能避免资源浪费，提升模型在专业领域的处理效率。

参数矩阵拆解：为减少参数量，LoRA将 $ΔW\Delta W$ 拆成 $A$ 和 $B$ 两个矩阵（ $A×B=ΔWA\times B=\Delta W$ ）。若原矩阵为 $d \times d$ 维度， $A$ 可设为 $d \times r$ 矩阵， $B$ 为 $r \times d$ 矩阵， $r$ 是远小于 $d$ 的数，通过这种低秩分解，用少量参数模拟大模型复杂功能。
本征维度概念：本征维度是数据或空间中描述其结构或特征所需的最小维度。如苹果图片，若仅识别苹果，仅需关键像素点信息，这些关键像素所在的低维子空间维度就是本征维度，去除冗余信息可提高效率。

Transformer注意力机制关键元素：Transformer注意力机制包含 $W_Q$ （生成查询向量，决定模型对输入的关注度）、 $W_K$ （生成键向量，计算相似度确定注意力分布）、 $W_V$ （生成数值向量，传递注意力计算输出）、 $W_O$ （将多头注意力输出合并并映射回原始维度）。
LoRA的作用位置及效果：LoRA的 $ΔW\Delta W$ 可作用于 $W_Q$ 、 $W_K$ 、 $W_V$ 、 $W_O$ 。实验表明，不限制参数预算时，同时作用在这四个矩阵上效果最好；有限预算时，作用在 $W_Q$ 和 $W_V上性价比最高。超参数$ r $并非越大越好，通常建议取值范围为 8 - 64 ，默认值为 8 。如在 GPT 3 实验中，不同数据集上不同$ r$值和作用矩阵组合的效果不同，验证了上述结论。

全参微调资源占用计算：以10亿参数（1B）模型为例，假设每个参数占用4字节，模型权重参数占用内存 $10^9×4$ 字节 = 4GB；AdamW优化器存储两个状态向量（一阶矩估计 $m$ 和二阶矩估计 $v$ ），占用内存 $10^9×4×2$ 字节 = 8GB；每个参数对应一个梯度，梯度占用内存 $10^9×4$ 字节 = 4GB，总占用约16GB（可粗略计算为 $4 N$ GB ）。
LoRA微调资源占用计算：同样以1B模型为例，模型权重参数仍为4GB。假设LoRA的 $r ank$ 设置为8，可训练参数量远低于全参数微调，如仅需约0.1B - 0.2B参数。其优化器状态向量和梯度占用内存相对全参微调大幅减少，整体占用内存约4.2GB（估算值）。