作者:孟繁续,北大博士生
原文:https://zhuanlan.zhihu.com/p/13852322456
前言
自从四月初高调宣传PiSSA之后,就一直在默默打磨文章。很高兴获得了社区的认可和关注,后续工作中LoRA-GA和LoRA-Pro近似全参数微调梯度的初始化方法被苏神评价为最精彩的LoRA改进;Song Han老师团队将QPiSSA(通过去除outlier从而减小量化误差)和SmoothQuant结合得到的SVDQuant,在学术和工程层面达到了新的高度。
https://openreview.net/pdf?id=6ZBHIEtdP4
PiSSA完成后,我开了很多条研究线,每个研究都很有趣,恨不得一头扎进去做完,但不得不平衡一下时间。终于,迫不及待地,今天可以跟大家分享一下近期初见成效的一篇工作: CLOVer(四叶草)。
Paper:CLOVer: Cross-Layer Orthonormal Vectors Adaption
Abs:https://arxiv.org/abs/2411.17426
跨层正交化 CLOVer
首先需要重新回顾一下多头注意力机制,之前理解注意力,就会开始分析的含义。权重的作用很少被提及, W_O 甚至都被排除在公式中。本文换个看注意力机制的视角,如下图(a)所示,多头注意力像一个四叶草一样,QK一对:,一对:,其中。跨越Q