Kimi悄悄开源了自家推理框架Mooncake~

Mooncake是为Kimi服务的平台,Kimi是由Moonshot AI提供的领先的大型语言模型(LLM)服务。

图片

Mooncake以KVCache为中心的解耦架构,将预填充和解码集群分开。它还利用GPU集群中未充分利用的CPU、DRAM和SSD资源来实现KVCache的解耦缓存。

图片

Mooncake的核心是其以KVCache为中心的调度器,它在最大化整体有效吞吐量的同时,满足与延迟相关的服务水平目标(SLOs)要求。与假设所有请求都将被处理的传统研究不同,Mooncake面临着由于高度过载场景带来的挑战。为了缓解这些问题,开发了一种基于预测的早期拒绝策略。实验表明,Mooncake在长上下文场景中表现出色。与基线方法相比,在某些模拟场景中,Mooncake可以实现高达525%的吞吐量增加,同时遵守SLOs。在实际工作负载下,Mooncake的创新架构使Kimi能够处理比之前多75%的请求。

图片

  • Mooncake的底层部分是传输引擎(Transfer Engine),它支持通过TCP、RDMA、基于NVIDIA GPUDirect的RDMA以及NVMe over Fabric(NVMe-of)协议进行快速、可靠和灵活的数据传输。与gloo(分布式PyTorch使用的)和TCP相比,Mooncake传输引擎具有最低的I/O延迟。

  • 基于传输引擎,实现了点对点存储库(P2P Store library),支持在集群中的节点之间共享临时对象(例如,检查点文件)。它避免了单台机器上的带宽饱和。

  • 此外,修改了vLLM,以便集成传输引擎。它通过利用RDMA设备,使预填充-解码解耦更加高效。

  • 未来,计划在传输引擎的基础上构建Mooncake Store,它支持池化的KVCache,以实现更灵活的预填充/解码(P/D)解耦。

https://arxiv.org/pdf/2407.00079https://github.com/kvcache-ai/Mooncake

### Mooncake简介 Mooncake 是由月之暗面 Kimi 联合清华大学等机构共同开发的一种以 KVCache 为核心的分布式推理架构[^2]。该架构旨在提升大规模语言模型的推理性能,特别是在长上下文场景下的表现尤为突出。 #### 架构特点 Mooncake 的核心设计理念围绕着键值缓存(KVCache),通过分布式的存储和计算分离策略来优化资源利用效率[^4]。这种设计使得 Mooncake 在处理复杂任务时能够实现高吞吐量以及低延迟的表现。具体来说: - **高效资源管理**:通过对内存和网络带宽的有效分配,减少冗余操作并提高整体系统的运行效率。 - **支持多样化应用需求**:无论是自然语言理解还是个性化推荐系统等领域都能受益于 Mooncake 提供的强大技术支持能力。 #### 配置说明 为了部署 Mooncake ,需要准备好相应的配置文件 `mooncake.json` 。此文件包含了预填充 URL、解码 URL 及元数据服务器地址等重要参数设置信息[^3]。下面是一个典型的 JSON 格式示例: ```json { "prefill_url": "192.168.0.137:13003", "decode_url": "192.168.0.139:13003", "metadata_server": "192.168.0.139:2379", "protocol": "rdma", "device_name": "erdma_0" } ``` 其中 `"protocol"` 字段可以选择 `"rdma"` 或者 `"tcp"` 来指定通信协议类型;而当选用 TCP 协议时,则需将 `"device_name"` 设置为空字符串[](^3])。 #### 性能优势对比分析 基于模拟数据显示,在面对含有大量长序列输入的数据集时,相比其他同类解决方案如 vLLM , Mooncake 展现出更加优越的技术特性——即使是在严格遵循特定时间约束条件下仍可达到更高水平的服务质量(QoS)。以下是两者主要差异点总结表: | 特性 | Mooncake | vLLM | |--------------------|-----------------------------|-------------------------------| | 请求处理方式 | 批量 | 单独 | | 对SLO影响程度 | 较小 | 显著增加 | | 吞吐量增幅范围(%) | 50%-525% | — | 由此可见,得益于独特的两阶段分解设计方案,Mooncake 成功规避了传统方法可能带来的负面效应,并实现了显著优于竞争对手的整体效能指标改进效果。
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值