大模型高效微调PEFT——LoRA

最新推荐文章于 2025-06-18 10:57:37 发布

褪

最新推荐文章于 2025-06-18 10:57:37 发布

阅读量1.5k

点赞数 22

CC 4.0 BY-SA版权

文章标签：深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/huang101108/article/details/135556072

背景

随着大型语言模型参数量的不断增加，针对其进行预训练的难度越来越大，全量微调的方式也越来越不可行，如何将大模型部署在消费级显卡上进行训练成为一个热门的研究方向。

LoRA论文中假设大模型在训练过程中权重的变化具有较低的“内在秩”，允许我们通过优化适应期间密集层变化的秩分解矩阵来间接训练神经网络中的一些密集层，同时保持预训练权重冻结。简单的说，LoRA冻结了预训练的模型权重，并将可训练的秩分解矩阵注入到Transformer 架构的每一层，极大地减少了下游任务的可训练参数的数量。

且不会像adapter一样，在网络中插入几层，训练这几层就可以，但是这样会加大网络的深度，加大模型的推理时间。

核心点

之前模型： $h=W_{0} x$

$h=W_{0} x+\Delta W x=W_{0} x+B A x$

即现在的权重为 $W'=W_{0} +\Delta W =W_{0} +B A$

$W_{0} \in \mathbb{R}^{d \times {k}}$ ， $B \in \mathbb{R}^{d \times {r}}$ ， $A \in \mathbb{R}^{r \times {k}}$ ，其中 $\operatorname{rank} r \ll \min (d, k)$

所以训练的参数量会大大降低。 $\Delta W$ 将 $W$ 中一些特征进行了放大，在下游任务微调时，就会放大下游任务中相关的特征，这也是为什么用低秩微调有时候比全量微调效果还好（去掉了一些无用的噪声）

A、B一般一个初始化为0，一个采用kaiming_uniform（随机

最低0.47元/天解锁文章

200万优质内容无限畅学

博客等级

码龄6年

3
原创

28
点赞

25
收藏

16
粉丝

关注

私信

热门文章

分类专栏

上一篇：: 你真的懂JVM嘛之第一篇JVM概述

最新评论

大模型高效微调PEFT——LoRA
优快云-Ada助手: 恭喜作者发布了新的博客《大模型高效微调PEFT——LoRA》，看到您持续创作并分享有关PEFT和LoRA的内容，非常值得赞赏。希望您能在下一篇博客中，可以多分享一些实际案例或者应用场景，让读者更加深入地了解这些技术的实际应用。期待您的下一篇作品，谢谢您的分享！优快云正在通过评论红包奖励优秀博客，请看红包流：https://bbs.youkuaiyun.com/?type=4&header=0&utm_source=csdn_ai_ada_blog_reply3
部署chatglm遇到的坑
呆蟹: 好好好，我在chatglm3也是用gradio的demo有模型不回答的问题，多谢博主解决了。
你真的懂JVM嘛之第一篇JVM概述
优快云-Ada助手: 评论：非常棒的第一篇博客！你对JVM的概述非常清晰，让读者了解了JVM的目的和它对Java选手的重要性。继续创作下去，你一定会给读者带来更多有价值的知识。除了JVM的概述，你可以考虑在后续的博文中介绍一些与JVM相关的扩展知识和技能。比如，你可以探讨JVM的内存管理机制，如何进行垃圾回收，以及如何优化JVM的性能等等。此外，你还可以分享一些常见的JVM问题和解决方案，以帮助读者更好地理解和应对JVM的挑战。希望这些建议对你有所帮助，期待你的下一篇博客！加油！如何写出更高质量的博客，请看该博主的分享：https://blog.youkuaiyun.com/lmy_520/article/details/128686434?utm_source=csdn_ai_ada_blog_reply2
部署chatglm遇到的坑
优快云-Ada助手: 恭喜你开始博客创作！标题中提到你在部署chatglm时遇到的困难，这正是博客的魅力所在，能够分享自己的经验和解决问题的过程。希望你能在博客中详细描述遇到的坑，并分享解决方案，这样可以帮助更多的读者避免类似的困扰。同时，如果可能的话，你可以考虑加入一些代码示例或者截图，以便更好地理解你的问题和解决过程。期待你的下一篇博客！加油！推荐【每天值得看】：https://bbs.youkuaiyun.com/forums/csdnnews?typeId=21804&utm_source=csdn_ai_ada_blog_reply1
部署chatglm遇到的坑
优快云-Ada助手: 恭喜你这篇博客进入【优快云每天最佳新人】榜单，全部的排名请看 https://bbs.youkuaiyun.com/topics/617553019。

大家在看

最新文章

目录

展开全部

收起

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。