微调——什么是LoRA_lora(low-rank adaptation )是谁提出的?-优快云博客

本文链接：https://blog.youkuaiyun.com/woshihlf/article/details/149120921

微调——什么是LoRA

LoRA（Low-Rank Adaptation, 低秩自适应）：由微软于 2021 年提出，是一种高效微调大型语言模型（LLM）的技术。LoRA 通过低秩矩阵乘积近似关键更新，仅调整最必要的参数。这种思想本质上利用了大模型的 “冗余性”—— 即预训练模型已具备强大基础能力，微调时只需在低维子空间中调整少数方向，即可实现任务适配。

LoRA认为：模型在微调时的权重更新矩阵ΔW本质上是低秩的，即ΔW可通过两个小矩阵的乘积近似表示。

传统微调：
- 假设原始预训练权重矩阵为 $\in \mathbb{R}^{d \times k}$ ，其中：
  - d：输入维度（例如 transformer 的 hidden_size）
  - k：输出维度
- 全参数微调需要更新整个矩阵，参数量为 $\times k$
LoRA：
原始权重矩阵为 W ∈ R^(d×k)（如d=hidden_size=768，k=hidden_size=768）。
引入两个低秩矩阵：
- W_A ∈ R^(d×r)（降维矩阵，r≪d,k，通常r=8~128）
- W_B ∈ R^(r×k)（升维矩阵）

参数效率分析：

这种低秩适应有效的深层原因是：模型在不同任务间的知识迁移主要发生在低维子空间，通过调整这些关键方向就能实现高效适应。

LoRA并非作用于所有层，而是选择性地应用于关键可训练层（稍后有这些层的意义）：

在Transformer架构中，权重矩阵W主要存在于以下关键层：

注意力机制层（Attention Layer）：
- 查询（Query, Q）、键（Key, K）、值（Value, V）投影矩阵：将输入向量映射到Q/K/V空间，如矩阵形状为 [hidden_size, hidden_size]（假设hidden_size=768）。
- 输出投影矩阵：将多头注意力的结果合并后投影回隐藏空间，形状同上。
前馈神经网络层（Feed Forward Network, FFN）：
- 第一层线性变换矩阵：将输入维度从 hidden_size 扩展到 4×hidden_size（如768→3072），形状为 [hidden_size, 4×hidden_size]。
- 第二层线性变换矩阵：将维度从 4×hidden_size 压缩回 hidden_size，形状为 [4×hidden_size, hidden_size]。
嵌入层（Embedding Layer）：
- 词嵌入矩阵：将token ID映射为词向量，形状为 [vocab_size, hidden_size]（如vocab_size=50000，hidden_size=768）。

这些矩阵W是模型在预训练阶段（如GPT在海量文本上训练）学习到的参数，承载了通用语义理解能力。

当使用新数据微调时：

目标：让模型适应特定任务（如情感分析、问答），更新W以优化任务性能。
操作：
1. 加载预训练模型的所有权重矩阵W（冻结或不冻结）。
2. 输入新任务数据，前向传播计算损失。
3. 反向传播时计算所有W的梯度，并通过优化器（如Adam）更新所有W的参数。
问题：
- 参数量巨大：以GPT-3（1750亿参数）为例，全量微调需更新所有权重，显存需求超过百GB，普通硬件无法支持。
- 计算成本高：每次迭代需更新数十亿参数，训练时间长达数天甚至数周。

r过小（如r=4）：模型表达能力不足，任务性能下降。
r过大（如r=256）：参数减少优势减弱，接近全量微调。
经验法则：
- 小型模型（如7B）：r=16-32
- 大型模型（如13B-175B）：r=8-16
- 复杂任务（如代码生成）：可适当增大r（32-64）。

垂直领域适配：
- 医疗问答：用医学文本微调LoRA，仅更新数千参数即可让GPT理解医学术语。
- 法律文书生成：训练LoRA适配法律条文逻辑，无需重训整个模型。
多任务学习：
- 为不同任务（如翻译、摘要）维护独立的LoRA权重，通过权重混合实现多任务切换。
个性化模型：
- 生成特定风格文本（如模仿某作家文风）：仅需少量样本训练LoRA，避免全量微调导致的过拟合。