美团开源5600亿参数大模型LongCat-Flash-Chat:动态计算开启AI效率革命
导语
2025年9月1日,美团正式发布并开源大语言模型LongCat-Flash-Chat,该模型采用创新性混合专家架构(Mixture-of-Experts, MoE),总参数达5600亿但平均仅激活270亿参数,实现性能与效率的双重突破,尤其在智能体任务中表现突出。
行业现状:大模型效率革命加速
当前大语言模型正面临"规模与效率"的双重挑战。一方面,主流模型参数规模已突破万亿大关,GPT-4.1、Kimi-K2等模型虽性能强大,但动辄数百亿的激活参数导致推理成本居高不下;另一方面,企业级应用对实时响应要求严苛,传统稠密模型难以满足智能客服、实时推荐等场景的延迟需求。据美团技术团队测算,同等性能下,MoE架构模型的推理成本可降低60%以上,这为大模型商业化落地提供了关键支撑。
核心亮点:三大技术突破实现效率跃升
动态计算分配:让每个Token获得恰到好处的算力
LongCat-Flash-Chat最核心的创新在于"零计算专家"(Zero-Computation Experts)机制。不同于传统MoE模型对所有Token平均分配计算资源,该机制能根据上下文重要性动态调节激活参数规模——不重要的功能词可能仅通过"空转专家"直接返回,而数学推理、代码生成等关键Token则激活更多FFN专家,实现18.6B~31.3B参数的弹性调度。
为确保计算稳定性,模型采用PID控制器实时微调专家偏置,将单Token平均激活量精确控制在270亿参数。这种设计使得LongCat-Flash-Chat在保持5600亿总参数规模的同时,实际计算量仅相当于传统300亿参数稠密模型,却能在MMLU等基准测试中达到90.44的高分。
架构革新:通信与计算的完美重叠
针对MoE模型的通信瓶颈,LongCat-Flash-Chat提出"快捷连接MoE"(ScMoE)架构。通过重构层间连接顺序,将MoE层耗时的All-to-All通信操作与稠密层计算过程并行处理,通信等待时间从传统架构的25.3%降至8.4%。
智能体能力:专为复杂任务设计的推理引擎
LongCat-Flash-Chat在智能体任务中展现出非凡实力。通过多阶段训练 pipeline,模型首先在预训练阶段融合70% STEM领域数据强化推理基础,随后通过"多智能体数据合成框架"生成覆盖信息处理复杂度、工具集复杂度和用户交互复杂度的三维训练数据。
实测显示,该模型在τ²-Bench电信领域评测中以73.68分超越Kimi-K2(67.50)和GPT-4.1(35.20),在需要多工具协同的TerminalBench基准中获得39.51分,位列开源模型第二。这种优势源于其独特的"思维链-工具调用"协同机制,能像人类专家一样规划复杂任务步骤。
性能评估:多维度对标领先模型
通用领域知识
LongCat-Flash表现出强劲且全面的性能:在ArenaHard-V2基准测试中取得86.50的优异成绩,位列所有评估模型中的第二名,充分体现了其在高难度"一对一"对比中的稳健实力。在基础基准测试中仍保持高竞争力,MMLU(多任务语言理解基准)得分为89.71,CEval(中文通用能力评估基准)得分为90.44。
智能体工具使用
LongCat-Flash展现出明显优势:即便与参数规模更大的模型相比,其在τ²-Bench(智能体工具使用基准)中的表现仍超越其他模型;在高复杂度场景下,该模型在VitaBench(复杂场景智能体基准)中以24.30的得分位列第一,彰显出在复杂场景中的强大处理能力。
推理效率与成本控制
通过架构优化与系统级优化的深度结合,LongCat-Flash-Chat实现了令人惊叹的成本控制。在BF16精度下,模型单用户推理速度达100.5 token/秒,吞吐量3785 token/GPU/秒,对应成本仅为0.7美元/百万输出Token(约合5元)。这一水平使得智能客服等对话场景的单轮交互成本降至0.0015元,较现有方案降低70%以上。
如上图所示,该界面展示了LongCat-Flash-Chat的实际交互效果,用户可通过自然语言指令调用深度思考、联网搜索等功能。这种直观的交互方式降低了AI工具的使用门槛,使非技术人员也能高效利用大模型能力。
行业影响:从技术突破到商业价值转化
商业落地:美团生态的"AI+业务"融合
LongCat-Flash-Chat已在美团多项业务中实现落地。在外卖场景,基于该模型的智能助手"小美"能理解复杂订单需求,如"帮我点一份不要香菜、微辣的麻辣烫,加麻酱单独放,送到后请放前台",并自动完成下单全流程;在到店业务中,模型赋能的"袋鼠参谋"可实时分析商户经营数据,提供个性化运营建议。
开源生态:推动行业协同创新
美团采用MIT许可证完全开源LongCat-Flash-Chat,不仅提供模型权重和推理代码,还开放了完整的训练框架和部署工具。开发者可通过SGLang或vLLM快速部署,单机部署命令仅需一行代码:
python3 -m sglang.launch_server --model meituan-longcat/LongCat-Flash-Chat-FP8 --trust-remote-code --attention-backend flashinfer --enable-ep-moe --tp 8
这种开放策略已吸引超过200家企业基于LongCat-Flash-Chat进行二次开发,形成"模型-工具-应用"的完整生态链。
未来展望:从高效推理到认知智能
LongCat-Flash-Chat的技术报告显示,美团团队已在开发后续版本,计划通过"专家蒸馏"技术进一步提升小样本学习能力,并扩展多模态理解能力。更长远看,模型的动态计算理念可能启发全新的AI硬件设计,推动"软件定义算力"的下一代计算范式。
对于企业用户,现在正是接入LongCat-Flash-Chat生态的最佳时机——无论是通过Hugging Face下载模型自行部署,还是调用美团云API获取服务,都能快速享受到这场效率革命带来的红利。随着模型能力的持续迭代,我们有理由相信,大模型的"普惠AI"时代正在加速到来。
总结
LongCat-Flash-Chat的发布标志着中国大模型技术正式进入"效率竞争"新阶段。通过5600亿参数的"超大模型"与270亿激活的"高效推理"之间的精妙平衡,美团不仅展示了技术实力,更提供了一条从实验室创新到商业落地的可行路径。在AI与产业深度融合的今天,这种"既要性能领先,又要成本可控"的务实思路,或许比单纯的参数竞赛更能引领行业进步。
开源地址:https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Flash-Chat
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考




