Palu: Compressing KV-Cache with Low-Rank Projection

Palu：基于低秩投影的KV-Cache压缩框架

最新推荐文章于 2025-12-12 18:01:47 发布

原创

最新推荐文章于 2025-12-12 18:01:47 发布 · 620 阅读

·

4

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #论文阅读

202407，第一作者来自阳明交通大学

问题引入：

MQA/GQA/MLA这些压缩方式，要么折损性能，要么必须在预训练阶段就做；相比之下，训练后 KV-Cache 压缩技术，比如量化和token驱逐。
量化方法旨在减少表示每份数据所需的位宽，而令牌淘汰技术则专注于保留部分 KV-Cache。然而，这两种方法都忽略了 KV-Cache 中隐藏的维度，其中往往存在大量的冗余。
引入了 Palu，这是一个基于低秩投影的 KV-Cache 压缩框架，它通过降低 KV 张量的隐藏维度，为现有的量化方法和令牌淘汰方法提供了一个额外的正交压缩维度。
如果直接将缓存矩阵映射到低秩空间，在运行时计算分解矩阵时会产生不可接受的巨大开销

提出方案：

线性投影的权重矩阵 W 分解为两个低秩矩阵A和B。输入 X 被下投影到潜在表示 H，并缓存。Y 可以通过上投影矩阵 B 从 H 重建。(也就是说，KV缓存变成了H，它是一个L*k的tensor，相比于之间的空间占用是k/d)

子问题：

所有注意力头一块分解可以提高准确性，但是因为要分解一个d*d的矩阵，导致分解和重建成本增加；每个头分别重建成本较低，但是准确率损失（可能是由于 SVD 无法捕捉到头之间共享的公共信息）。因此提出了中粒度的按组分解，像GQA那样
每个线性投影模块对压缩的敏感性不同，如果是敏感度高的矩阵需要更高的秩。因此设计了基于Fisher 信息的有效秩搜索算法。Fisher信息越高就越敏感，Fisher信息是Fisher得分函数的方差，Fisher得分是对数似然函数对参数的一阶导。

Palu的整体流程：

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。