Mooncake：面向大规模语言模型服务的分布式缓存架构

最新推荐文章于 2025-06-11 09:18:04 发布

卓滨威Delmar

最新推荐文章于 2025-06-11 09:18:04 发布

阅读量922

点赞数 26

本文链接：https://blog.youkuaiyun.com/gitblog_00634/article/details/146531412

版权

Mooncake：面向大规模语言模型服务的分布式缓存架构

Mooncake 项目地址: https://gitcode.com/gh_mirrors/mo/Mooncake

项目介绍

Mooncake 是一个基于键-值（KV）缓存的分布式架构，专为大规模语言模型（LLM）服务设计。它由Moonshot AI提供，为Kimi服务提供支持，Kimi是一种领先的LLM服务。Mooncake 通过其独特的架构，将预填充和解码集群分离，充分利用GPU集群中未被充分利用的CPU、DRAM和SSD资源，实现了一个高效的分布式缓存系统。

项目技术分析

Mooncake 的核心是一个KVCache-centric调度器，它负责在保证满足延迟相关的服务水平目标（SLOs）的同时，最大化整体有效吞吐量。与传统的假设所有请求都将被处理的研究不同，Mooncake 面临着高度过载场景的挑战。为了应对这些挑战，Mooncake 开发了一种基于预测的早期拒绝策略。实验表明，Mooncake 在长上下文场景中表现出色。与基线方法相比，Mooncake 在某些模拟场景下可以实现高达525%的吞吐量增加，同时遵守SLOs。在实际工作负载下，Mooncake 的创新架构使得Kimi能够处理更多的请求。

Mooncake 的架构包括以下几个关键组件：

Transfer Engine：支持通过TCP、RDMA、基于NVIDIA GPUDirect的RDMA以及NVMe over Fabric（NVMe-of）协议进行快速、可靠且灵活的数据传输。
P2P Store：基于Transfer Engine，支持在集群节点之间共享临时对象（例如检查点文件）。
Mooncake Store：基于Transfer Engine，为LLM推理提供分布式池化KVCache存储引擎。