11月3日,美团LongCat(龙猫)团队宣布推出全新开源大模型LongCat-Flash-Omni,该模型以5600亿总参数规模实现全模态能力突破,一举登上开源领域技术巅峰。作为美团LongCat-Flash系列的最新成员,这款模型延续了9月1日发布的LongCat-Flash-Chat和LongCat-Flash-Thinking两大版本的技术基因,首次在开源领域构建起“全模态覆盖+端到端架构+大参数量高效推理”的技术体系,实现了对闭源模型的全模态能力对标。
该模型的核心技术突破在于创造性解决了行业长期面临的“参数规模与运行效率”平衡问题。通过采用LongCat-Flash系列独创的ScMoE架构(包含零计算专家设计)作为大语言模型骨干,配合高效多模态编解码器及“分块式音视频特征交织机制”,在5600亿总参数(激活参数270亿)的基础上,实现了低延迟音视频处理与流式语音生成。128K tokens的上下文窗口支持超8分钟音视频交互,在多模态长时记忆、多轮对话连贯性和时序逻辑推理等关键指标上展现出显著优势。
实测数据显示,LongCat-Flash-Omni的图像理解能力已达到闭源模型Gemini-2.5-Pro水平,超越开源同类模型Qwen3-Omni;短视频内容理解性能实现行业领先,长视频处理能力与Gemini-2.5-Pro基本持平。这一系列技术突破使得开源模型首次具备与闭源产品在全模态能力上正面竞争的实力。
为加速技术落地,美团同步发布LongCat官方应用程序,当前版本已支持联网搜索和语音通话功能(视频通话功能正在开发中,即将上线)。开发者可通过Gitcode仓库(https://gitcode.com/hf_mirrors/meituan-longcat/LongCat-Flash-Chat)获取相关资源,探索全模态大模型在本地生活服务场景的创新应用。
此次发布标志着我国在大模型开源生态建设上迈出关键一步,LongCat-Flash-Omni通过架构创新打破了参数规模与实用效率的对立关系,为行业提供了兼顾性能与成本的技术范式。随着全模态能力在开源社区的普及,预计将催生更多面向垂直领域的轻量化应用,推动人工智能技术在实体产业中更广泛的落地应用。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



