LoRA是大模型微调方法的一种,它的特点是只在模型的 部分权重(如 QKV 矩阵) 上 添加可训练参数
通过 低秩矩阵(A×B) 来优化参数更新
优点:
极大降低显存消耗(deepseek 7B 只需 10GB)
适用于多任务 LoRA 适配器切换
训练速度快
例如在 Transformer 里,自注意力(Self-Attention)计算:
Y=XW,
其中 X 是input, W是原始模型的权重矩阵(全连接层).
传统的Fine-tuning就是直接对 W 进行梯度更新,导致需要存储整个 W 的更新版本,显存占用极大。
LoRA 关键思想:
不直接更新 W,而是 用两个小矩阵 AAA 和 BBB 近似建模 W 的变化:
W′=W+ΔWW' = W + \Delta WW′=W+ΔW
ΔW=AB\Delta W = ABΔW=AB
其中:
A∈Rd×rA \in \mathbb{R}^{d \times r}A∈Rd×r
B∈Rr×dB \in \mathbb{R}^{r \times d}B∈