Mooncake与LMCache整合：构建高性能KVCache大模型服务系统-优快云博客

本文链接：https://blog.youkuaiyun.com/gitblog_01000/article/details/148578631

Mooncake与LMCache整合：构建高性能KVCache大模型服务系统

Mooncake 项目地址: https://gitcode.com/gh_mirrors/mo/Mooncake

技术背景与项目介绍

在大型语言模型(LLM)服务领域，KVCache(键值缓存)技术已成为提升推理效率的关键。Mooncake和LMCache作为该领域的两个重要项目，通过深度整合实现了性能的显著提升。

Mooncake最初是为知名大模型聊天服务Kimi设计的服务平台，采用KVCache为中心的分布式架构，通过分离Prefill(预填充)和Decode(解码)操作并优化KVCache重用，大幅提升了系统吞吐量。经过多个基础设施提供商的贡献，Mooncake已发展成为开源平台，并与多个流行系统集成。

LMCache则是一个开源的"知识分发网络"(KDN)，专为加速LLM应用而设计，可将性能提升高达8倍同时显著降低成本。其核心在于跨多个存储层存储可重用文本的KV缓存，实现不同服务实例间的缓存有效重用。

技术整合亮点

Mooncake与LMCache的战略合作带来了以下关键技术创新：

双向技术赋能
- LMCache集成Mooncake的先进传输引擎和KVCache存储解决方案，显著提升数据分发效率
- Mooncake采用LMCache作为其KVCache管理层，获得更灵活的缓存控制机制
性能优化突破
- 通过CacheBlend等前瞻性功能实现更精细的缓存管理
- 支持更复杂的服务场景和更高的操作灵活性

性能基准测试

我们通过一组严格的测试数据来验证整合后的性能提升：

测试环境配置

硬件平台：8张H800 GPU
测试模型：Qwen2.5-72B-Instruct(非量化版本)
工作负载：50个请求，每个输入9728个token，生成64个token
缓存配置：禁用LMCache本地CPU缓存，专注评估Mooncake Store效果

性能对比数据

| 指标 | 冷启动(首轮) | 缓存命中(次轮) | 提升幅度 | |---------------------|--------------|----------------|----------| | 平均TTFT(首token延迟) | 21,707ms | 6,708ms | ↓69.1% | | P90 TPOT(每token处理时间)| 632ms | 221ms | ↓64.9% | | 请求吞吐量 | 1.11 req/s | 3.23 req/s | ↑191% | | 总token吞吐量 | 10,899 tok/s | 31,665 tok/s | ↑190.5% |

测试结果清晰表明，通过KVCache重用技术，系统在延迟和吞吐量方面都获得了显著提升。