蚂蚁百灵开源两款高效推理模型 推理成本直降90%突破行业瓶颈

蚂蚁百灵开源两款高效推理模型 推理成本直降90%突破行业瓶颈

【免费下载链接】Ring-mini-linear-2.0 【免费下载链接】Ring-mini-linear-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-mini-linear-2.0

近日,蚂蚁集团百灵大模型团队对外发布重磅开源成果:全新升级的ring-flash-linear-2.0与ring-mini-linear-2.0大模型正式向开发者社区开放,同步推出的还有两项自研高性能融合算子——fp8融合算子与线性attention推理融合算子。该技术组合以"大参数规模+低激活消耗"为核心设计理念,成功实现超长上下文场景下的高效推理,标志着国内大模型在能效优化领域取得突破性进展。

据技术团队披露,通过架构层的深度重构与算子级的协同优化,新模型在保持复杂推理能力的同时,将计算资源消耗压缩至同等规模Dense模型的1/10,较上一代Ring系列产品推理开销降低超50%。这种跨越式提升源于两大技术创新:fp8融合算子通过精度自适应调整实现显存占用与计算效率的最优平衡,线性attention推理融合算子则彻底解决传统注意力机制的计算复杂度难题,使模型能流畅处理万字级长文本输入。

在训练与推理协同优化方面,该系列模型实现引擎级别的算子对齐,这一技术特性使强化学习训练过程中的效率提升3倍以上。测试数据显示,在GSM8K数学推理、MMLU多任务学习等权威基准测试中,两款模型均保持SOTA水平,其中ring-flash-linear-2.0在70亿参数规模下实现与130亿参数Dense模型相当的推理性能,而硬件成本仅为后者的18%。

值得关注的是,该模型体系展现出优异的工业化部署特性。通过算子融合技术,模型在普通GPU设备上即可实现每秒2000 tokens的生成速度,较同类模型部署门槛降低60%。目前两款模型已完成全量代码开源,开发者可通过以下地址获取:Ring-flash-linear-2.0项目托管于https://gitcode.com/hf_mirrors/inclusionAI/Ring-mini-linear-2.0,Ring-mini-linear-2.0同步开放技术文档与预训练权重。

行业分析人士指出,蚂蚁百灵此次开源成果直击大模型落地的核心痛点——推理成本过高问题。随着AI应用向产业端渗透,低资源消耗的高效能模型正成为企业级应用的刚需。此次开源的技术方案不仅提供开箱即用的模型产品,更输出一套完整的高效推理技术体系,有望推动金融、医疗等对实时性要求严苛的领域加速AI落地进程。未来随着社区共建的深入,这种"轻量高效"的技术路线或将重塑大模型产业的发展格局。

【免费下载链接】Ring-mini-linear-2.0 【免费下载链接】Ring-mini-linear-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-mini-linear-2.0

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值