LoRA的原理简介

最新推荐文章于 2025-03-12 14:14:58 发布

stingfire

最新推荐文章于 2025-03-12 14:14:58 发布

阅读量1.1w

点赞数 16

文章标签：人工智能语言模型

本文链接：https://blog.youkuaiyun.com/stingfire/article/details/138315770

版权

在文章开始前先澄清一个概念，需要区分形近的单词"LoRa"（long range），这是一项通信技术。熟悉物联网行业的朋友相对会比较熟悉LoRa这项技术，因为有些设备比如电梯的控制就使用了这个技术进行本地数据和命令的传输。

本文介绍的LoRA（最后两个字母大写），是Low-Rank Adaptation的缩写，Low-Rank来自于对权重矩阵的分解。LoRA技术通过将权重矩阵分解成低秩矩阵的乘积，降低了参数数目，进而达到减少硬件资源、加速微调进程的目的。

众所周知，大模型所涉及的参数都是以10亿起的，往往上百亿千亿级的参数。这些模型进行预训练后的基座模型(Base Model)在具体的应用场景下需要进一步微调。这时面临两种选择：

全参数的微调：毫无疑问，这个需要加载所有的参数进行调整训练，费时费力更费钱。
部分参数的微调：只针对某些层的权重和参数进行调整训练，能够减少存储空间和加速部署，但存在一些性能和模型质量的损耗。

LoRA在保留基座模型全部参数的同时，拆分出权重矩阵的更新并进行矩阵分解，通过调整训练这个由低秩矩阵乘积表示的更新矩阵来减少存储空间的同时保留了模型的质量和微调速度。

LoRA原理

LoRA的详细论文介绍可以阅读参考资料2（LORA: LOW-RANK ADAPTATION OF LARGE LAN- GUAGE MODELS）。其原理如下图所示：对于一个预训练好的基座模型，保留其原有的权重矩阵W不变，仅微调训练更新部分，且这个更新权重矩阵被分解成A和B两个低秩矩阵。下图中A矩阵初始化为高斯分布矩阵，B矩阵初始化为0矩阵。