KVcache

最新推荐文章于 2025-02-24 15:21:25 发布

iiimZoey

最新推荐文章于 2025-02-24 15:21:25 发布

阅读量305

点赞数

文章标签： python

原文链接：https://mp.weixin.qq.com/s/kF30ixRER8bW_93aqwzHgw

版权

一、什么是kv cache?

https://zhuanlan.zhihu.com/p/655325832

减少推理过程中kv键值对的重复计算，实现kv cache的优化。目前减少KV cache的手段有许多，比如page attention、MQA、MGA等，另外flash attention可以通过硬件内存使用的优化

KV Cache 的大小与模型配置（层数，hidden_size，Attention head 个数等）以及序列长度、Batch Size 成正比。其中单个 Token 对应的 KV Cache 大小与模型配置相关，并且是固定的，这里将其称为单位 KV Cache 计算公式为：

sum_token = (hidden_size / num_attention_heads * num_key_value_heads) * num_hidden_layers * 2 (k, v)

而总的 KV Cache 大小为：

sum = sum_token * seq_len * batch_size

batch_size 和 seq_len 越大，KV Cache 越大，如下图所示为 LLaMA2-7B 模型的 batch_size 和 seq_len 对应的 KV Cache 大小（默认 FP16 精度）：

当 batch_size * seq_len 为 32K 时，比如 batch_size 为 1，seq_len 为 32K，其 KV Cache 大小为 16GB，甚至超过模型权重大小 14GB。
当 batch_size * seq_len 为 128K 时，比如 batch_size 为 1，seq_len 为 128K，其 KV Cache 大小为 64GB，加上模型权重 14GB 甚至快要超过 A100 GPU 的 80GB 显存限制。

分解 Prompt（输入上下文）：
- 将输入上下文（Prompt）拆分成两部分：
  - Prefix：较早部分的 Token（例如序列的开头）。
  - Window：靠近生成位置的最近 Token（即当前关注的“窗口”）。
稀疏化 KV Cache：
- 不是保留 Prefix 中所有 Token 的 KV Cache，而是通过注意力分数（Attention Score）从 Prefix 中挑选出与当前 Window 相关性最高的一部分 Token。
- 每个注意力头会根据它自己的注意力分数，独立选择需要保留的 Token。因此，不同的头可能会从 Prefix 中选择不同的 Token。
最终的 KV Cache：
- 将以下两部分组合成最终的 KV Cache：
  - Window 中所有 Token 的 KV Cache（因为它们与当前生成任务最密切）。
  - 从 Prefix 中挑选出来的重要 Token 的 KV Cache。
固定 Prompt 的 KV Cache：
- 在生成（Decoding）阶段，SnapKV 不会更新 Prompt 的 KV Cache，这进一步减少了计算量和内存需求。