作者:孟繁续,北大博士生
原文:https://zhuanlan.zhihu.com/p/13852322456
前言
自从四月初高调宣传PiSSA之后,就一直在默默打磨文章。很高兴获得了社区的认可和关注,后续工作中LoRA-GA和LoRA-Pro近似全参数微调梯度的初始化方法被苏神评价为最精彩的LoRA改进;Song Han老师团队将QPiSSA(通过去除outlier从而减小量化误差)和SmoothQuant结合得到的SVDQuant,在学术和工程层面达到了新的高度。
https://openreview.net/pdf?id=6ZBHIEtdP4
PiSSA完成后,我开了很多条研究线,每个研究都很有趣,恨不得一头扎进去做完,但不得不平衡一下时间。终于,迫不及待地,今天可以跟大家分享一下近期初见成效的一篇工作: CLOVer(四叶草)。
Paper:CLOVer: Cross-Layer Orthonormal Vectors AdaptionAbs:https://arxiv.org/abs/2411.17426
跨层正交化 CLOVer
首先需要重新回顾一下多头注意力机制,之前理解注意力,就会开始分析的含义。权重的作用很少被提及, W_O 甚至都被排除在公式中。本文换个看注意力机制的视角,如下图(a)所示,多头注意力像一个四叶草一样,QK一对:,一对:,其中。跨越QK和VO层,可以将,的每个注意力头看作是低秩压缩得到了Key,再解压Key与X相乘得到attention matrix;将,的每个注意力头看作是低秩压缩得到了Value,再解压Value与attention matrix相乘得到输出。换句话说,,看作一个整体,是低秩矩阵的分解形式;,看作一个整体,是低秩矩阵的分解形式。不过这种分解形式不是正交分解,向量之间存

最低0.47元/天 解锁文章
58

被折叠的 条评论
为什么被折叠?



