1000亿参数仅激活61亿,蚂蚁Ling-flash-2.0颠覆大模型效率认知

2025年9月17日,蚂蚁集团百灵大模型团队正式向全球开源新一代稀疏激活模型Ling-flash-2.0。这款总参数达1000亿的MoE架构模型,通过创新的稀疏激活机制,在推理过程中仅需调用61亿参数(非嵌入层激活48亿),却在十余项权威评测中展现出媲美400亿稠密模型的卓越性能。这一突破性成果不仅标志着蚂蚁在大模型效率优化领域的技术领先,更为行业应对"参数军备竞赛"挑战提供了可落地的技术范式。

【免费下载链接】Ling-flash-2.0 【免费下载链接】Ling-flash-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-flash-2.0

效率革命:当61亿激活参数撬动400亿性能

当前大模型发展正面临严峻的"规模陷阱":训练成本每18个月增长10倍,推理延迟导致90%的企业级应用无法落地,而实测显示传统稠密模型中高达75%的参数处于低效激活状态。MoE(混合专家)架构虽通过稀疏激活机制被寄予厚望,但现有方案普遍存在专家负载失衡、训练震荡、推理效率不及预期等痛点。

Ling-flash-2.0给出的解决方案是全栈式效率优化。基于团队发表于arXiv的MoE缩放定律研究(https://arxiv.org/abs/2507.17702),研发团队构建了从架构设计到推理部署的全链路优化体系:

图片展示了蚂蚁开源的MoE大模型Ling-flash-2.0的架构图,包含MoE(Mixture of Experts)核心架构、Grouped-Query Attention、RoPE位置编码等关键组件,以及总参数100B、推理仅激活6.1B参数的高效设计。

如上图所示,该架构图清晰呈现了Ling-flash-2.0的核心创新点,包括1/32稀疏激活比例、专家共享机制和混合路由策略等关键设计。这些技术创新共同支撑了"以小博大"的效率突破,为开发者理解模型工作原理提供了直观参考。

在模型架构层面,研发团队采用1/32的极致激活比例,通过sigmoid路由算法实现专家动态调度,配合无辅助损失(aux-loss free)训练策略,使专家负载均衡度提升40%。创新的共享专家池设计让通用知识复用率提高35%,而精细化的专家分工机制则将任务专属知识的表达效率提升2倍。在基础模块优化上,MTP目标建模、QK归一化技术和half-RoPE位置编码的组合应用,使每个激活参数的知识密度达到行业平均水平的1.8倍。

实测数据显示,Ling-flash-2.0在仅激活61亿参数的情况下,实现了对400亿稠密模型的性能超越,相当于用1.5升汽油的能耗跑出了10升汽油的续航里程。在H20推理平台上,该模型实现每秒200+tokens的生成速度,较同性能稠密模型提升3倍,且随着输出长度增加,效率优势呈线性扩大。这种"激活参数-性能杠杆比"突破7倍的技术突破,重新定义了大模型效率的评价标准。

能力验证:从数学推理到前端开发的全场景突破

为全面验证模型的综合能力,蚂蚁百灵团队构建了覆盖12个领域的"能力评估矩阵",在高难数学、代码生成、专业知识问答等场景进行了系统性测试。测试结果显示,Ling-flash-2.0不仅在通用能力上超越Qwen3-32B、Seed-OSS-36B等同量级稠密模型,更在特定任务上领先Hunyuan-A13B等更大激活规模的MoE模型。

这是一张柱状图,展示了蚂蚁开源的MoE模型Ling-flash-2.0在GPQA-Diamond、MMLU-Pro、AIME 2025等多个权威评测榜单上的性能得分,并与Qwen3-32B、Seed-OSS-36B等其他模型进行对比,体现其在高难数学推理、知识问答等任务上的优异表现。

该柱状图直观呈现了Ling-flash-2.0在各项权威评测中的领先地位。特别在AIME 2025数学竞赛题上,模型得分超出第二名12%,印证了其在复杂推理领域的突破性进展,为科研人员提供了清晰的性能参照系。

在高难数学推理领域,Ling-flash-2.0在AIME 2025竞赛题上实现38.7%的解题率,超越GPT-4 11个百分点;Omni-MATH数据集得分达62.3,较同激活规模模型提升27%。代码生成方面,该模型在LiveCodeBench测试中实现78.5%的功能正确性,在CodeForces竞赛级题目上的通过率达到专业程序员水平的65%。

针对前端开发这一垂直领域,蚂蚁团队与WeaveFox合作开发了视觉增强奖励(VAR)机制,使模型生成的UI代码在美学评分上提升40%。实测显示,Ling-flash-2.0能根据文字描述直接生成符合"新粗野主义"风格的计算器界面,代码一次运行成功率达89%,较传统开发方式效率提升6倍。在数独问题求解任务中,模型能自主构建运筹优化模型并生成Pyomo求解代码,平均解题时间仅需45秒。

为方便开发者接入,Ling-flash-2.0提供了与主流开发环境的无缝集成方案。通过设置OPENAI_API_KEY、OPENAI_BASE_URL和OPENAI_MODEL三个环境变量,即可将模型接入Qwen Code等CLI工具链,实现本地化高效开发。这种"开箱即用"的设计大幅降低了企业级应用的部署门槛。

技术基石:20万亿token预训练与全流程创新

Ling-flash-2.0的卓越表现源于其扎实的预训练基础和创新的训练范式。蚂蚁百灵团队构建了业界领先的AI数据处理系统,基于统一数据湖宽表设计实现样本级血缘追踪,从40万亿token原始语料中精选出20万亿高质量token用于模型训练。这套数据处理体系支持多模态数据融合,能自动识别并过滤低质量内容,使训练数据的信噪比提升3倍。

预训练过程采用三阶段渐进式架构:第一阶段(10万亿token)聚焦知识密度,通过百科全书、学术论文等高质量文本夯实模型基础知识;第二阶段(10万亿token)侧重推理密度,引入数学证明、逻辑推演等复杂文本提升模型推理能力;中间训练阶段则将上下文长度扩展至32K,并引入思维链语料,为后续指令微调做准备。这种"知识-推理-能力"的三阶训练模式,使模型参数利用率提升50%。

训练策略上,团队基于自研的Ling Scaling Laws动态调整超参数,将传统WSD学习率调度器升级为WSM(Warmup-Stable and Merge)调度器。通过模拟学习率衰减的checkpoint merging技术,模型下游任务表现提升15%。词表方面,Ling-flash-2.0将词汇量从128K扩展至156K,新增30种语言的专用token,使多语言任务性能平均提升22%。

后训练阶段创新采用四步进化式优化:解耦微调(DFT)技术使模型同时掌握"即时回答"与"深度推理"双模式;ApexEval评测体系聚焦知识深度筛选潜力模型;演进式RL训练实现推理能力的动态解锁;组内竞技场奖励机制有效提升模型的情感共鸣能力。这种全流程优化使模型在保持高效率的同时,实现了认知能力的均衡发展。

开源赋能:开启大模型普惠时代

作为蚂蚁Ling 2.0架构系列的第三款开源模型,Ling-flash-2.0不仅提供对话模型版本,更同步开放基础模型(Base Model)供学术界研究。基础模型在MMLU-Pro测试中得分78.6,在GPQA-Diamond数据集上达到64.2的高分,展现出强大的持续优化潜力。开发者可基于基础模型进行垂直领域微调,实现医疗、金融等专业场景的深度适配。

该模型已在HuggingFace、ModelScope和GitCode三大平台同步开源,完整提供模型权重、训练脚本和部署指南。蚂蚁团队承诺将持续维护模型迭代,并提供技术社区支持。这种开放协作模式有望加速大模型技术的产业化落地,推动AI普惠进程。

Ling-flash-2.0的开源释放,标志着大模型发展正式进入"效率竞争"新阶段。当参数规模不再是衡量模型能力的唯一标准,架构创新、训练策略和数据质量正成为新的竞争焦点。这款模型展示的"以小博大"技术路径,不仅为企业级应用提供了降本增效的解决方案,更为AI可持续发展指明了方向——未来的大模型竞争,将是智慧而非蛮力的较量。随着高效模型技术的普及,通用人工智能的普惠时代正在加速到来。

【免费下载链接】Ling-flash-2.0 【免费下载链接】Ling-flash-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ling-flash-2.0

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值