低秩适应（LoRA）与量化LoRA（QLoRA）技术解析

原创

已于 2025-05-08 18:43:15 修改 · 4.4k 阅读

·

5

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #语言模型

于 2025-05-08 18:31:07 首次发布

LoRA：从线性代数到模型微调

从矩阵分解理解Lora

假设我们有一个大模型中的权重矩阵，形状为1024×512（包含约52万个参数）。传统微调方法会直接更新这52万个参数，这不仅计算量大，而且存在过拟合风险。

LoRA的做法是：

保持原始权重矩阵不变
引入两个小矩阵：比如1024×32和32×512
这两个小矩阵相乘得到的结果与原始矩阵形状相同
将乘积结果与原始矩阵相加，作为最终使用的权重

这种方法的优势立刻显现：

32是一个超参数r（rank），通常远小于原始维度
两个小矩阵总共只有约4.9万个参数，仅为原始矩阵的约9.3%
如果r取更小值（如8或4），参数量可进一步减少

总结一下：LoRA的核心思想源自线性代数中的"低秩矩阵分解"技术。这个名字可以拆解为Low-Rank Adaptation，字面意思是"低秩适应"。通过这种技术，我们可以巧妙地绕过直接修改原始模型的庞大参数，而是添加训练一组规模小得多的参数矩阵。
在这里插入图片描述

为什么这么做会有效

LoRA的数学表达

让我们用数学公式来表达这个过程。对于原始权重矩阵 W∈R^(d×k)，LoRA微调后的权重表示为：

W_LoRA = W + ΔW = W + BA

其中：

B∈R^(d×r) 和 A∈R^(r×k) 是两个低秩矩阵
r << min(d,k)，确保参数量大幅减少
初始化时，B可以随机初始化，而A通常初始化为全零矩阵

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

非常大模型 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。