Palu: Compressing KV-Cache with Low-Rank Projection

202407,第一作者来自阳明交通大学

问题引入:

  • MQA/GQA/MLA这些压缩方式,要么折损性能,要么必须在预训练阶段就做;相比之下,训练后 KV-Cache 压缩技术,比如量化和token驱逐。

  • 量化方法旨在减少表示每份数据所需的位宽,而令牌淘汰技术则专注于保留部分 KV-Cache。然而,这两种方法都忽略了 KV-Cache 中隐藏的维度,其中往往存在大量的冗余。

  • 引入了 Palu,这是一个基于低秩投影的 KV-Cache 压缩框架,它通过降低 KV 张量的隐藏维度,为现有的量化方法和令牌淘汰方法提供了一个额外的正交压缩维度。

  • 如果直接将缓存矩阵映射到低秩空间,在运行时计算分解矩阵时会产生不可接受的巨大开销

提出方案:

  • 线性投影的权重矩阵 W 分解为两个低秩矩阵A和B。输入 X 被下投影到潜在表示 H,并缓存。Y 可以通过上投影矩阵 B 从 H 重建。(也就是说,KV缓存变成了H,它是一个L*k的tensor,相比于之间的空间占用是k/d)

子问题:

  • 所有注意力头一块分解可以提高准确性,但是因为要分解一个d*d的矩阵,导致分解和重建成本增加;每个头分别重建成本较低,但是准确率损失(可能是由于 SVD 无法捕捉到头之间共享的公共信息)。因此提出了中粒度的按组分解,像GQA那样

  • 每个线性投影模块对压缩的敏感性不同,如果是敏感度高的矩阵需要更高的秩。因此设计了基于Fisher 信息的有效秩搜索算法。Fisher信息越高就越敏感,Fisher信息是Fisher得分函数的方差,Fisher得分是对数似然函数对参数​的一阶导。

Palu的整体流程:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值