9月1日,美团正式发布并开源 LongCat-Flash-Chat,它采用了创新性混合专家模型(Mixture-of-Experts, MoE)架构,实现了计算效率与性能的双重优化。
SGLang 团队是业界专注于大模型推理系统优化的技术团队,提供并维护大模型推理的开源框架SGLang。近期,美团M17团队与SGLang团队一起合作,共同实现了LongCat-Flash模型在SGLang上的优化,并产出了一篇技术博客《LongCat-Flash: Deploying Meituan's Agentic Model with SGLang》,文章发表后,得到了很多技术同学的认可,因此我们将原文翻译出来,并添加了一些背景知识,希望更多同学能够从LongCat-Flash的系统优化中获益。
本文目录
-
1. 引言:美团开源 LongCat-Flash 智能体模型
-
2. 为什么模型-系统协同设计很关键?
-
3. 我们的解决方案:SGLang + PD 分离 + SBO 调度 + 大规模 EP 部署
-
3.1 PD 分离
-
3.2 SBO
-
3.3 大规模专家并行部署
-
3.4 其他优化
-
-
4. 性能表现
-
5. 使用 SGLang 部署的方法
-
6. 总结
-
7. 致谢
1. 引言:美团开源 LongCat-Flash 智能体模型
LongCat-Flash——美团 LongCat 团队开源的创新性混合专家模型(Mixture-of-Experts, MoE)现已在 Hugging Face 平台开源,我们总结了 LongCat-Flash 的一些特性:
-
总参数量达 5600 亿
-
每 Token 激活参数 186 亿-313 亿(平均 270 亿)
-
512 个前馈网络专家 + 256 个零计算专家
-
采用 Shortcut-Connected MoE(ScMoE)实现计算-通信重叠
-
集成多头潜在注意力机制(MLA)
基于多项基准测试,作为非思考型基础模型,LongCat-Flash 仅通过少量参数激活即可达到与主流领先模型相当的性能表现,在智能体任务方面尤为突出。此外,得益于以推理效率为导向的设计理念和架构创新,LongCat-Flash 展现出显著更快的推理速度,使其更适用于复杂且耗时的智能体应用场景。

最低0.47元/天 解锁文章
48

被折叠的 条评论
为什么被折叠?



