文献阅读：Sparse Low-rank Adaptation of Pre-trained Language Models

最新推荐文章于 2025-10-13 22:09:14 发布

原创

最新推荐文章于 2025-10-13 22:09:14 发布 · 1.6k 阅读

21 ·

CC 4.0 BY-SA版权

文章标签：

#SoRA #LoRA #LLM #大模型finetune #效率优化

本文介绍了清华大学提出的SoRA方法，一种针对预训练语言模型（LLM）的高效finetune优化策略，通过动态调整Adapter的中间层维度，降低参数量并保持性能。与LoRA和AdaLoRA相比，SoRA简化了实现，减少计算量，并在实验中显示了优越的效率和效果。

文献阅读：Sparse Low-rank Adaptation of Pre-trained Language Models

文献链接：https://arxiv.org/abs/2311.11696
GitHub链接：https://github.com/TsinghuaC3I/SoRA

1. 文章简介

这篇文章是清华大学在23年11月发表的一篇针对LLM的高效finetune方面的工作。

众所周知，LLM虽然效果很好，但是由于其极其巨大的参数量，对LLM的finetune一直是一个老大难问题，因此最近针对这方面的研究也是层出不穷，其中最为知名的可能就是微软提出的LoRA算法了，我自己之前也整理了一篇水文来介绍过这篇工作（文献阅读：LoRA: Low-Rank Adaptation of Large Language Models）。

整体上来说，LoRA的核心思路就是用一个额外的Adapter网络来模拟模型finetune之后的参数微扰，使得原始模型的输出加上Adapter模型的输出近似于finetune之后的模型输出。此时，我们只需要train一个很小的adapter就可以来模拟模型的finetune了，既不用改动原始大模型的结构，也不需要增加很多额外的参数。

但是，LoRA有一个比较大的问题就是它默认了微扰对于各个层的影响都是一样的，且都是比较小的，因此LoRA对所有层都共享一个超参，就是adapter中间层的维度。而这个假设事实上是有点强的，因此后续也有一些工作尝试对这个点进行优化，文中提到的一个典型工作就是AdaLoRA，它通过奇异值分解的方式来动态调整不同层所需的Adapter中间层的维度，但是因为他引入了奇异值分解，因此需要挺多的额外计算量，且需要引入一些额外的正交假设。

基于此，文中提出了一个新的他们命名为SoRA的方法，本质上来说，它和AdaLoRA一样，也是希望动态调整不同层中Adapter中间层的维度，但是相较于AdaLoRA，更加简单直接，无需引入额外的假设，且不会增加多少额外的计算量。

下面，我们来具体看一下文中提出的SoRA方法的具体实现和对应的实验以及实验结果。