LoRA原理

本文介绍了LoRA(低秩适应)在大语言模型训练中的应用,它是通过将更新矩阵分解为低秩形式,减少参数量并保持模型性能。文章详细描述了梯度下降算法和如何在微调时利用LoRA进行参数更新,以及其对预测计算的影响。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

在AIGC领域频繁出现着一个特殊名词“LoRA”,这是一种模型训练的方法。LoRA全称Low-Rank Adaptation of Large Language Models,中文叫做大语言模型的低阶适应。如今在stable diffusion中用地非常频繁.

现在大多数模型训练都是采用梯度下降算法。梯度下降算法可以分为下面4个步骤:

  1. 正向传播计算损失值
  2. 反向传播计算梯度
  3. 利用梯度更新参数
  4. 重复1、2、3的步骤,直到获取较小的损失

以线性模型为例,模型参数为W,输入输出为x、y,损失函数以均方误差为例。那么各个步骤的计算如下,首先是正向传播,对于线性模型来说就是做一个矩阵乘法:

                                L = MSE(Wx, y)

在求出损失后,可以计算L对W的梯度,得到dW:

                                dW = \frac{\partial L}{\partial W}

dW是一个矩阵,它会指向L上升最快的方向,但是我们的目的是让L下降,因此让W减去dW。为了调整更新的步伐,还会乘上一个学习率η,计算如下:

                

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

初窺门径

谢谢鼓励!共同进步~

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值