PiSSA作者新作:跨层正交化微调方法CLOVer,让大模型少忘记原有的能力

作者:孟繁续,北大博士生
原文:https://zhuanlan.zhihu.com/p/13852322456

前言

自从四月初高调宣传PiSSA之后,就一直在默默打磨文章。很高兴获得了社区的认可和关注,后续工作中LoRA-GA和LoRA-Pro近似全参数微调梯度的初始化方法被苏神评价为最精彩的LoRA改进;Song Han老师团队将QPiSSA(通过去除outlier从而减小量化误差)和SmoothQuant结合得到的SVDQuant,在学术和工程层面达到了新的高度。

https://openreview.net/pdf?id=6ZBHIEtdP4

PiSSA完成后,我开了很多条研究线,每个研究都很有趣,恨不得一头扎进去做完,但不得不平衡一下时间。终于,迫不及待地,今天可以跟大家分享一下近期初见成效的一篇工作: CLOVer(四叶草)。

Paper:CLOVer: Cross-Layer Orthonormal Vectors AdaptionAbs:https://arxiv.org/abs/2411.17426

跨层正交化 CLOVer

首先需要重新回顾一下多头注意力机制,之前理解注意力,就会开始分析的含义。权重的作用很少被提及, W_O 甚至都被排除在公式中。本文换个看注意力机制的视角,如下图(a)所示,多头注意力像一个四叶草一样,QK一对:,一对:,其中。跨越Q

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值