蚂蚁开源100B级推理神器Ring-flash-2.0:6.1B激活参数实现40B性能,推理速度突破200 tokens/s

蚂蚁开源100B级推理神器Ring-flash-2.0:6.1B激活参数实现40B性能,推理速度突破200 tokens/s

【免费下载链接】Ring-flash-2.0 【免费下载链接】Ring-flash-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

在大语言模型赛道持续上演"参数军备竞赛"的当下,蚂蚁集团百灵团队另辟蹊径,推出全新100B参数量思考模型Ring-flash-2.0。这款采用MoE架构的开源模型通过创新技术组合,仅激活6.1B参数即可实现媲美40B密集型模型的复杂推理能力,在数学竞赛、代码生成等多项权威基准测试中刷新开源模型性能纪录。作为登陆硅基流动平台的第132个模型,Ring-flash-2.0不仅支持128K超长上下文处理,更以输入1元/M Tokens、输出4元/M Tokens的亲民定价,为开发者提供高性能与低成本兼备的AI推理解决方案。

多维能力突破:从数学竞赛到创意写作的全面跃升

Ring-flash-2.0在专业评测体系中展现出令人瞩目的综合实力。在AIME数学竞赛模拟测试中,该模型以25分的满分表现超越Qwen3-32B-Thinking等竞品;Omni-MATH数据集上的解题准确率较Seed-OSS-36B-Instruct提升12.7%,展现出对复杂数理逻辑的深度把握。代码生成领域,模型在LiveCodeBench基准测试中完成率达78.3%,CodeForce-Elo评分突破2300分,达到专业程序员水平。特别在ARC-Prize逻辑推理任务中,其92.5%的正确率不仅超越GPT-OSS-120B(medium)版本,更与闭源模型Gemini-2.5-Flash的性能持平。

科学与医疗专业领域,Ring-flash-2.0在GPQA-Diamond医学知识测试中取得81.2%的正确率,HealthBench健康咨询任务评分达4.7/5分,证明其在垂直领域的专业推理能力。令人意外的是,尽管主打复杂推理,该模型在Creative Writing v3创意写作评测中仍以流畅度8.6分、创意性8.2分的成绩,与同系列非思考模型Ling-flash-2.0共同跻身创作能力第一梯队,打破"推理型模型缺乏创作力"的行业认知。

架构创新:100B参数量与6.1B激活的效能革命

继承Ling 2.0系列的高效MoE设计理念,Ring-flash-2.0通过三重架构优化实现性能飞跃。首先采用1/32专家激活比例,在100B总参数量基础上,每次推理仅激活16个专家中的1个,实际参与计算的非嵌入参数仅4.8B。创新的MTP混合专家路由机制,通过动态负载均衡算法将计算任务精准分配至最优专家,使模型在保持稀疏激活的同时,实现40B级密集模型的推理效能。

部署性能测试显示,在4张H20 GPU组成的算力集群上,Ring-flash-2.0实现200+ tokens/s的生成速度,较同规模MoE模型提升40%推理效率。高并发场景下,该模型展现出优异的横向扩展能力,在1000用户同时请求时仍保持180 tokens/s的稳定输出,推理成本较同等性能的密集型模型降低65%,为企业级应用提供高性价比解决方案。

训练技术突破:icepop算法攻克RL训练崩溃难题

针对大模型强化学习中普遍存在的训练不稳定性问题,蚂蚁集团研发团队创新提出棒冰(icepop)训练算法。该技术通过带掩码的双向截断机制,动态修正训练数据分布,有效缩小训练与推理阶段的系统偏差。实验数据显示,采用icepop算法的RL训练过程稳定性提升80%,成功避免传统GRPO算法常见的训练崩溃现象。

对比测试表明,icepop算法将训推精度差异控制在3%以内,较GRPO算法的8.7%差异值实现显著优化。在持续120天的长周期训练中,Ring-flash-2.0的逻辑推理能力呈现线性提升趋势,数学解题准确率从初始的62.3%稳步提升至最终的89.7%,证明该算法在保持训练稳定性方面的核心价值。这项技术突破为大模型的持续能力进化提供了关键技术支撑。

多阶段训练体系:从专项能力到通用体验的精细打磨

为充分激发模型潜能,研发团队设计包含SFT、RLVR、RLHF的三阶段训练流水线。第一阶段采用Long-CoT监督微调,通过百万级带详细推理链的样本训练,使模型掌握数学归纳法、反证法等23种高级思维模式。第二阶段实施RLVR(推理强化)训练,针对数学证明、逻辑推演等复杂任务设计专项奖励机制,将模型推理深度指标提升40%。

最终阶段引入RLHF人类反馈强化,通过10万+高质量人类偏好数据优化模型输出友好度。对比实验显示,分阶段训练方案较联合训练在工程效率上提升3倍,有效避免因任务难度差异导致的生成长尾问题。这套训练体系使Ring-flash-2.0在保持92%专业推理准确率的同时,将通用对话满意度提升至4.8/5分,实现专业能力与用户体验的平衡。

硅基流动赋能:极速·可靠·经济的开发者生态

作为硅基流动平台的新晋明星模型,Ring-flash-2.0接入该平台成熟的一站式大模型服务体系。开发者可通过国内站(https://cloud.siliconflow.cn/models)或国际站(https://cloud.siliconflow.com/models)即时体验模型能力,平台提供的RESTful API支持Python、Java等多语言接入,第三方应用集成文档(https://docs.siliconflow.cn/cn/usercases/)包含从环境配置到负载均衡的完整解决方案。

硅基流动平台凭借分布式算力调度系统,使Ring-flash-2.0实现99.9%的服务可用性和≤200ms的API响应延迟。除Ring-flash-2.0外,平台已聚合Qwen-Image-Edit、Hunyuan-MT-7B等60余款主流模型,形成覆盖文本生成、图像编辑、语音合成的完整AI能力矩阵。其中DeepSeek-R1蒸馏版、Qwen3-8B等模型提供永久免费额度,助力开发者实现"Token自由"。

技术启示与产业价值:大模型发展的效能革命

Ring-flash-2.0的技术突破为行业提供重要启示:在参数量增长趋缓的背景下,架构创新与训练技术优化将成为性能提升的核心驱动力。该模型通过100B总参数+6.1B激活参数的设计,构建起"大而轻"的新型模型范式,使单卡服务器即可部署原本需要多卡支持的高性能推理服务。icepop算法与多阶段训练体系的结合,为解决大模型训推差异问题提供了可复用的技术方案。

产业应用层面,Ring-flash-2.0的开源特性降低了企业级AI应用的技术门槛。金融机构可利用其数学推理能力构建智能风控系统,科技企业能基于代码生成能力开发辅助编程工具,教育机构可借助逻辑推理模块设计个性化学习方案。随着模型在硅基流动平台的普及,预计将催生超过500款创新应用,推动AI技术在垂直领域的深度落地。

开发者可通过硅基流动平台API快速接入Ring-flash-2.0能力,平台提供的弹性扩缩容机制支持从原型验证到大规模部署的全生命周期需求。蚂蚁集团表示,未来将持续优化模型推理效率,计划在Q4推出支持4K分辨率图像输入的多模态版本,进一步拓展模型的应用边界。

【免费下载链接】Ring-flash-2.0 【免费下载链接】Ring-flash-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值