大模型-微调与对齐-参数高效的模型微调

一个研究技术、玄学、金融的干过码农的人

于 2024-10-25 16:58:54 发布

阅读量363

点赞数 9

分类专栏：大模型文章标签：深度学习人工智能机器学习大模型

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sgliquangang/article/details/143235170

版权

大模型专栏收录该内容

33 篇文章

订阅专栏

一、简介

目的：由于大模型参数量大，全参数微调资源开销大，使用参数高效微调（又称轻量化微调）的方式，在保证微调效果的基础上，来降低微调过程资源消耗
知识框架
- 低秩适配微调方法（LoRA）
  - LoRA
  - LoRA变种
- 其他高效微调方法（使用较少）
  - 适配器微调
  - 前缀微调
  - 提示微调

二、低秩适配微调方法

1、LoRA

简介：在预训练模型的参数矩阵上添加低秩分解矩阵来近似每层的参数更新，从而减少适配下游任务所需要训练的参数
实现过程：
- 冻结原始矩阵，通过低秩分解矩阵来近似参数更新矩阵
- 在微调期间，原始的矩阵参数不会被更新，低秩分解矩阵则是可训练参数用于适配下游任务
- 训练完成后，进一步将原始参数矩阵和训练得到的权重合并，得到更新后的参数矩阵
优点：使用LoRA微调过得模型在解码过程中不会增加额外开销
所需显存：从预训练阶段的16P降到2P

2、LoRA变种

简介：原始的LoRA实现中，低秩矩阵参数固定，训练过程中无法调整，忽略了不同的秩在微调任务中可能产生的差异化影响
变种一：AdaLoRA
- 变化方式：引入动态低秩适应技术，在训练过程中动态调整每个参数矩阵需要训练的秩同时控制训练的参数总量
- 动态调整策略：在微调过程中，通过损失来衡量每个参数矩阵对训练结果的重要性，重要性较高的参数矩阵赋予较高的秩，重要性较低的参数矩阵赋予较低的秩，用于防止过拟合并节省资源
变种二：QLoRA
- 介绍：将原始的参数矩阵量化为4比特，而低秩部分继续使用16比特，在保证微调效果的前提下，节省显存开销
- 显存下降幅度：从2P下降到0.5P

3、LoRA在大模型中的应用

应用情况：应用广泛
优点：
- 参与训练参数少
- 易于实现

三、其他高效微调方法

1、简介

大模型微调用的少，多用在预训练语言模型微调阶段

2、适配器微调

原理：在Transformer模型中引入小型神经网络模块（适配器），每一层都会集成该神经网络模块

3、前缀微调

原理：语言模型的每个多头注意力层中都添加了一组前缀参数。

4、提示微调

原理：输入嵌入层中加入可训练的提示向量。

一个研究技术、玄学、金融的干过码农的人

博客等级

码龄13年

412
原创

1138
点赞

1106
收藏

1038
粉丝

关注

私信

热门文章

分类专栏

大模型 33篇
玄学 7篇
中间件、工具 17篇
编程基础 1篇
管理、情商、格局 3篇
数码 3篇
项目管理 1篇
后端 4篇
办公 8篇
算法 23篇
Java 42篇
产品 1篇
区块链 1篇
Linux 11篇
C、C++ 2篇
前端 1篇
iOS 151篇
python 1篇

展开全部收起

最新评论

直播-rtmp拉流测试地址
青春向前: 第一个没拉到，第二个拉到了
Java-设计模式
倾听一世，繁花盛开: 写的太完美了，互关一下吧
codeblock couldn‘t create project directory ：path
普通网友: 引领技术潮流，是不可多得的好文，十分值得借鉴和参考。期待博主未来能够持续分享更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
iOS 数据库升级
普通网友: 优质好文，博主的文章细节很到位，兼顾实用性和可操作性，期待博主持续带来更多好文【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】
iOS 数据库升级
普通网友: 干货满满，实用性强，博主的写作风格简洁明了，让人一目了然。文章涵盖了很多实用的知识点。【我也写了一些相关领域的文章，希望能够得到博主的指导，共同进步！】

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。