LongCat-Flash:如何使用SGLang部署美团Agentic模型

9月1日,美团正式发布并开源 LongCat-Flash-Chat,它采用了创新性混合专家模型(Mixture-of-Experts, MoE)架构,实现了计算效率与性能的双重优化。

SGLang 团队是业界专注于大模型推理系统优化的技术团队,提供并维护大模型推理的开源框架SGLang。近期,美团M17团队与SGLang团队一起合作,共同实现了LongCat-Flash模型在SGLang上的优化,并产出了一篇技术博客《LongCat-Flash: Deploying Meituan's Agentic Model with SGLang》,文章发表后,得到了很多技术同学的认可,因此我们将原文翻译出来,并添加了一些背景知识,希望更多同学能够从LongCat-Flash的系统优化中获益。

本文目录

  • 1. 引言:美团开源 LongCat-Flash 智能体模型

  • 2. 为什么模型-系统协同设计很关键?

  • 3. 我们的解决方案:SGLang + PD 分离 + SBO 调度 + 大规模 EP 部署

    • 3.1 PD 分离

    • 3.2 SBO

    • 3.3 大规模专家并行部署

    • 3.4 其他优化

  • 4. 性能表现

  • 5. 使用 SGLang 部署的方法

  • 6. 总结

  • 7. 致谢

1. 引言:美团开源 LongCat-Flash 智能体模型

LongCat-Flash——美团 LongCat 团队开源的创新性混合专家模型(Mixture-of-Experts, MoE)现已在 Hugging Face 平台开源,我们总结了 LongCat-Flash 的一些特性:

  • 总参数量达 5600 亿

  • 每 Token 激活参数 186 亿-313 亿(平均 270 亿)

  • 512 个前馈网络专家 + 256 个零计算专家

  • 采用 Shortcut-Connected MoE(ScMoE)实现计算-通信重叠

  • 集成多头潜在注意力机制(MLA)

基于多项基准测试,作为非思考型基础模型,LongCat-Flash 仅通过少量参数激活即可达到与主流领先模型相当的性能表现,在智能体任务方面尤为突出。此外,得益于以推理效率为导向的设计理念和架构创新,LongCat-Flash 展现出显著更快的推理速度,使其更适用于复杂且耗时的智能体应用场景。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值