202407,第一作者来自阳明交通大学
问题引入:
-
MQA/GQA/MLA这些压缩方式,要么折损性能,要么必须在预训练阶段就做;相比之下,训练后 KV-Cache 压缩技术,比如量化和token驱逐。
-
量化方法旨在减少表示每份数据所需的位宽,而令牌淘汰技术则专注于保留部分 KV-Cache。然而,这两种方法都忽略了 KV-Cache 中隐藏的维度,其中往往存在大量的冗余。
-
引入了 Palu,这是一个基于低秩投影的 KV-Cache 压缩框架,它通过降低 KV 张量的隐藏维度,为现有的量化方法和令牌淘汰方法提供了一个额外的正交压缩维度。
-
如果直接将缓存矩阵映射到低秩空间,在运行时计算分解矩阵时会产生不可接受的巨大开销
提出方案:
-
线性投影的权重矩阵 W 分解为两个低秩矩阵A和B。输入 X 被下投影到潜在表示 H,并缓存。Y 可以通过上投影矩阵 B 从 H 重建。(也就是说,KV缓存变成了H,它是一个L*k的tensor,相比于之间的空间占用是k/d)
子问题:
-
所有注意力头一块分解可以提高准确性,但是因为要分解一个d*d的矩阵,导致分解和重建成本增加;每个头分别重建成本较低,但是准确率损失(可能是由于 SVD 无法捕捉到头之间共享的公共信息)。因此提出了中粒度的按组分解,像GQA那样
-
每个线性投影模块对压缩的敏感性不同,如果是敏感度高的矩阵需要更高的秩。因此设计了基于Fisher 信息的有效秩搜索算法。Fisher信息越高就越敏感,Fisher信息是Fisher得分函数的方差,Fisher得分是对数似然函数对参数的一阶导。
Palu的整体流程:

最低0.47元/天 解锁文章
755

被折叠的 条评论
为什么被折叠?



