蚂蚁百灵开源新一代高效思考模型 推理成本直降90%突破行业瓶颈

蚂蚁百灵开源新一代高效思考模型 推理成本直降90%突破行业瓶颈

【免费下载链接】Ring-flash-linear-2.0 【免费下载链接】Ring-flash-linear-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-linear-2.0

近日,蚂蚁集团百灵大模型团队对外发布重大技术成果,正式宣布开源两款具备高效思考能力的新一代大模型——Ring-flash-linear-2.0与Ring-mini-linear-2.0。此次开源同步推出两大自研高性能融合算子,分别为FP8融合算子与线性Attention推理融合算子,标志着该团队在"大参数、低激活"技术路线上取得突破性进展,可同时满足高效推理与超长上下文支持的核心需求。

据团队技术负责人介绍,新模型通过架构层面的深度优化与高性能算子的协同增效,在复杂深度推理场景中展现出卓越的成本优势。实测数据显示,同等参数规模下,新模型推理成本仅为传统Dense模型的十分之一,相较于团队原有Ring系列模型,成本降幅亦超过50%。这一跨越式进步主要得益于训推引擎算子的高度对齐技术,使模型在强化学习优化阶段能够实现长周期、稳定且高效的参数调优,从而在多项高难度复杂推理榜单上持续保持业界领先的SOTA表现。

此次开源的两款模型已在主流模型托管平台开放下载。其中Ring-flash-linear-2.0模型可通过https://gitcode.com/hf_mirrors/inclusionAI/Ring-flash-linear-2.0获取,Ring-mini-linear-2.0的开源仓库同步上线。技术社区专家分析指出,蚂蚁百灵团队此次开源的模型体系,通过创新的算子设计与架构优化,成功攻克了大模型推理成本居高不下的行业难题,为企业级AI应用落地提供了兼具性能与经济性的技术选择,预计将加速大模型在金融、工业等复杂推理场景的规模化应用进程。

随着这两款高效思考模型的开源,AI技术社区将获得更具性价比的大模型开发基础,有望推动新一轮基于"低激活"架构的模型创新。蚂蚁百灵团队表示,未来将持续优化模型的上下文处理能力与多模态推理性能,通过开源协作构建可持续发展的大模型技术生态。

【免费下载链接】Ring-flash-linear-2.0 【免费下载链接】Ring-flash-linear-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-linear-2.0

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值