2月26日,Mooncake的论文获得「计算机存储顶会 FAST 2025」Best Paper,这也是国内连续第三年拿到FAST Best Paper。同时,Mooncake 团队宣布和 vLLM 团队已经合作制定了一个多阶段路线图。这次整合将为 vLLM 引入 P/D(Prefill/Decode)分解和全局 KVCache 设计。
Mooncake:
大模型训练/推理 高性能优化
原始论文发表于 2024年,论文地址:Mooncake: A KVCache-centric Disaggregated Architecture for LLM Serving

最低0.47元/天 解锁文章
3208

被折叠的 条评论
为什么被折叠?



