蚂蚁开源Ring-flash-2.0:61亿激活参数实现400亿级推理能力,MoE架构重塑大模型效率边界

蚂蚁开源Ring-flash-2.0:61亿激活参数实现400亿级推理能力,MoE架构重塑大模型效率边界

【免费下载链接】Ring-flash-2.0 【免费下载链接】Ring-flash-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

导语

蚂蚁集团旗下Inclusion AI团队正式开源高性能思考模型Ring-flash-2.0,以1000亿总参数的MoE(混合专家)架构,仅激活6.1亿参数即可媲美400亿稠密模型的复杂推理能力,在数学竞赛、代码生成等任务中超越GPT-OSS-120B等主流模型,重新定义开源大模型的效率标准。

行业现状:从参数竞赛到效率革命

2025年,大语言模型行业正经历战略转型。据《AI大模型与异构算力融合技术白皮书》显示,主流开源模型平均参数规模已达671B,但实际部署中仅37B参数被有效激活,"参数冗余"现象严重制约产业落地。在此背景下,蚂蚁等科技巨头相继开源基于MoE架构的高效能模型,标志着行业竞争焦点从单纯追求万亿参数的"规模竞赛",全面转向对"效能比"的极致追求。

图片以科技感蓝色与紫色渐变背景呈现发光节点通过线条连接的网络结构示意图,背景可见“MoE”字样,直观展示混合专家(MoE)架构的技术概念。

如上图所示,该示意图直观展示了MoE架构通过稀疏激活实现"以少胜多"的核心逻辑。每个"发光节点"代表一个专家子模型,仅在处理特定任务时被激活,这种设计使Ring-flash-2.0能在1000亿总参数中动态调用6.1亿参数完成推理,为理解大模型效率革命提供了可视化参考。

核心亮点:三大技术突破重构推理效率

1. 超稀疏MoE设计:6.1B激活参数撬动40B性能

Ring-flash-2.0延续1/32专家激活率的超稀疏设计,总参数量1000亿但实际激活仅6.1B参数(非嵌入层4.8B),却能媲美40B规模稠密模型性能。在硬件部署上,仅需4张H20 GPU即可实现超过200 token/s的吞吐量,每百万输出tokens成本低至$0.70,较前代模型推理成本降低50%以上。这种设计特别适合高并发场景,例如金融风控系统可将推理服务器数量从16台降至2台。

2. IcePop算法:解决MoE模型RL训练瓶颈

针对MoE模型强化学习(RL)阶段的稳定性问题,蚂蚁团队独创"icepop算法",通过"双向截断+掩码修正"机制,有效解决训练与推理引擎计算差异导致的梯度不稳定问题。该算法不仅截断训练概率显著高于推理概率的token,还处理了推理概率显著高于训练概率的情况,并对差异过大的token进行掩码,排除其梯度计算。实测显示,采用IcePop算法后,模型在数学推理任务上的性能提升15-20%,训练周期延长3倍仍保持稳定收敛。

3. 混合训练策略:SFT+RLVR+RLHF多阶段优化

模型采用创新的两阶段RL训练 pipeline:

  • 第一阶段:通过Long-CoT SFT(长思维链监督微调)注入数学、代码等多学科推理模式;
  • 第二阶段:先以RLVR(可验证奖励强化学习)逼近期望推理极限,再通过RLHF(人类反馈强化学习)优化格式与可读性。
    这种分阶段策略避免了传统联合训练中的"长尾等待"问题,工程效率提升40%。

性能表现:多维度基准测试领先开源模型

在五大核心任务中,Ring-flash-2.0展现出显著优势:

  • 数学推理:AIME 2025竞赛题准确率达38.7%,超越GPT-OSS-120B(32.1%)和Qwen3-32B(35.2%);
  • 代码生成:LiveCodeBench v6前端开发任务通过率72.3%,CodeForces-Elo评级达1890分;
  • 医疗推理:HealthBench基准测试综合得分81.5,糖尿病诊断子任务准确率达92%;
  • 长文本处理:支持128K上下文窗口,在法律合同审查场景中相对加速比达7倍。

图片展示了Ring–Linear–2.0系列模型的混合线性架构,包含Grouped-Query Attention、MoE(Mixture of Experts)等关键组件,以及训练目标(Next-Token Prediction和Multi-Token Prediction)。

上图展示了Ring-flash-2.0的技术架构细节,其中MoE层与线性注意力模块的融合设计,是实现"高性能+高效率"平衡的核心。例如,MTP(Multi-Token Prediction)层通过预测多token序列提升推理连贯性,而1/32专家激活比则确保资源集中分配给关键任务。

行业影响:开启大模型普惠化部署新纪元

Ring-flash-2.0的开源将加速三大变革:

  • 企业级部署成本下降:金融、医疗等领域的推理成本降低70%,推动AI在中小企业普及;
  • 边缘计算成为可能:在自动驾驶车载系统中实现毫秒级决策推理,硬件需求从8卡H100降至4卡H20;
  • 垂直领域定制加速:生物制药企业可基于6.1B激活参数微调分子设计模型,训练周期缩短至原来的1/3。

部署与实践指南

开发者可通过以下方式快速体验Ring-flash-2.0:

  1. 在线体验:访问ZenMux平台(https://zenmux.ai/inclusionai/ring-flash-2.0)直接测试;
  2. 本地部署
    git clone https://gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0
    pip install -r requirements.txt
    
  3. 推理优化:推荐使用vLLM或SGLang框架,支持FP8量化和128K上下文扩展。

结论与前瞻

Ring-flash-2.0以"稀疏激活+稳定训练"的双重突破,证明了MoE架构在效率与性能上的颠覆性潜力。随着混合专家架构的普及,预计到2025年底,企业级AI应用部署成本将降低70%以上,推动AI技术在科学研究、工程设计和医疗诊断等领域的规模化落地。建议开发者重点关注该模型在代码生成、数学推理等结构化任务中的应用潜力,同时通过SGLang/vLLM框架进一步挖掘性能优化空间。

收藏本文,关注蚂蚁百灵团队后续开源动态,及时把握大模型效能革命新机遇!

【免费下载链接】Ring-flash-2.0 【免费下载链接】Ring-flash-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值