大模型内容分享(十一)：大模型高效微调（PEFT）方法大全

之乎者也·

于 2024-01-08 15:57:56 发布

阅读量3.3k

点赞数 17

分类专栏： AI(人工智能) 内容分享大模型(Foundation Model) 内容分享文章标签：模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_45038038/article/details/135322838

版权

目录

PEFT方法效率统计

具体方法具体介绍

3.1 Additive类：Adapters

3.2 Additive类：Soft Prompts

3.3 Selective类

3.4 Reparametrization-based类

PEFT分类

图1. PEFT分类

如上图1，按是否增加了额外参数，PEFT主要分为：

Additive类：在预训练模型基础上增加额外的参数或者网络层，微调训练的时候只训练这些新增的参数或层，包含两个子类：

1）Adapter--在Transformer子层后加入小的全连接层，微调只学习新加的全连接层参数。

2）Soft Prompts--常见的Prompts方法是在输入中构造Prompts模板，如何构造是一门学问，Soft Prompts直接在输入的embedding中加向量作为soft prompts，并对这些向量的参数进行微调，避免构造Prompts模板。

Selective类：选择模型中的部分层比如最后几层、或偏置项进行微调。
Reparametrization-based类：利用低秩表征（low-rank representations）来最小化可训练的参数，本质上就是认为大量的参数中，仅仅一部分起到关键作用，在这个起关键作用的子空间中去寻找参数进行微调。
Hybrid类：混合了多种类别的方法。

PEFT方法效率统计

参数效率（Parameter Efficiency，PE）从广泛的概念讲，包括存储、内存、计算和性能的效率，其中计算效率主要包括微调时反向传播的计算和推理的计算效率。下面是对已收集的方法（论文）从这几个维度进行的统计：

表1. 各种方法的效率统计

其中，Type表示该方法属于Additive、Selective、Reparametrization-based哪一类，Storage、Memroy表示该方法和全部参数微调比较是否节约了存储、内存。Backprop表示是否减小了反向传播计算开销，Inference overhead表示推理时是否增加了开销，比如常见的增加了全连接层。

最低0.47元/天解锁文章

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

之乎者也· 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。