KVCache-Factory: 统一的KV缓存压缩框架-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_00212/article/details/146903033

KVCache-Factory: 统一的KV缓存压缩框架

KVCache-Factory Unified KV Cache Compression Methods for Auto-Regressive Models 项目地址: https://gitcode.com/gh_mirrors/kv/KVCache-Factory

项目介绍

KVCache-Factory 是一个为自动回归模型设计的统一KV缓存压缩框架。该项目旨在提供一个高效的解决方案，通过不同的KV缓存压缩方法来优化大型语言模型的推理性能。KVCache-Factory 支持多种压缩方法，如PyramidKV、SnapKV、H2O 和 StreamingLLM，并且可以在不同的注意力机制下工作，例如Flash Attention v2 和 Sdpa Attention。

项目快速启动

要开始使用KVCache-Factory，请按照以下步骤操作：

克隆项目仓库：

git clone https://github.com/Zefan-Cai/KVCache-Factory.git

安装依赖：

cd KVCache-Factory
pip install -r requirements.txt

运行推理示例：

export CUDA_VISIBLE_DEVICES=$1
method=$2
max_capacity_prompts=64
attn_implementation=$3
python scripts/run_longbench.py --method $method --max_capacity_prompts $max_capacity_prompts --attn_implementation $attn_implementation

其中，$1 是可见的CUDA设备编号，$2 是选择的KV缓存压缩方法，$3 是注意力机制的实现方式。