初识华为RazorAttention

原创

已于 2025-04-07 19:53:42 修改 · 610 阅读

·

12

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#昇腾 #RazorAttention #kvcache

于 2025-04-07 19:52:15 首次发布

论文原文：https://openreview.net/pdf?id=tkiZQlL04w
最近学习华为的RazorAttention，水平有限，根据论文做了初步了解。

1 背景：KV缓存成为部署模型的主要瓶颈

长上下文大型语言模型（LLM）在不同任务的自然语言处理方面具有显著的先进性。在LLM 模型的应用场景中，KV（Key-Value）缓存需要保存所有词元的Key与Value，以便节省后续解码时的计算复杂度。然而，随着输入序列的增长，KV Cache 所占用的空间也会不断增加，总体达到 O(seq_len)的空间复杂度，导致显存消耗迅速增加（极端情况下 KV Cache 与权重的显存占比可达到 9:1），进而影响模型推理性能、限制其部署。

1.1 当前主流方式：

量化（Quantization）：量化方法通过降低存储每个数据点的精度来减少内存使用。使用较低的精度（如4位或8位）来表示数据。
窗口（Window）：这种方法通过限制缓存中存储的数据量来优化显存使用。例如，只缓存最近的或最重要的数据。
稀疏化（Sparse）：这种方法通过仅存储非零或重要的数据点来减少内存占用。它利用数据的稀疏性来优化存储。

目前业界流行的 KV Cache 压缩算法均为实时动态压缩，即实时地计算一些指标：注意力分数（与 FlashAttention 不兼容）或者 Topk 判断稀疏模式，对推理速度均有非常高的负面影响，在实际部署中不适用。

2 Razor Attention

基于Attention可解释性，提出了RazorAttention静态KV Cache压缩算法，是目前业界唯一的静态方法。RazorAttention的动机来源于 Anthropic 2022 年的论文 In-context Learning and Induction Heads，该文章介绍了 Decoder-Only架构的语言大模型独有的上下文学习能力（In-Cont

最低0.47元/天解锁文章

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。