蚂蚁集团百灵大模型开源新突破:Ring-flash-2.0攻克MoE训练难题,小参数实现大模型性能

蚂蚁集团百灵大模型开源新突破:Ring-flash-2.0攻克MoE训练难题,小参数实现大模型性能

【免费下载链接】Ring-flash-2.0 【免费下载链接】Ring-flash-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

9月19日,科技行业传来重磅消息,蚂蚁集团旗下的百灵大模型正式宣布开源其最新力作——「Ring-flash-2.0」模型。这款模型的问世,标志着在大语言模型(LLM)领域,特别是混合专家(MoE)架构的训练与应用方面,取得了一项关键性的技术突破。通过自主研发的“棒冰(icepop)”算法,蚂蚁集团的研发团队成功地解决了MoE类型的大语言模型在经过Long-COT SFT(长上下文思维链监督微调)冷启动阶段之后,进行强化学习(RL)训练时面临的稳定性难题。这一突破不仅具有重要的学术价值,更为MoE模型的工业化应用扫清了一大障碍。

在模型架构的配置上,「Ring-flash-2.0」展现出了极高的效率和创新性。该模型总参数规模达到1000亿(100B),但在实际运行过程中,仅需激活其中的61亿(6.1B)参数。这种设计理念充分发挥了MoE架构的优势,即在保持模型总体能力潜力的同时,极大地降低了实际计算资源的消耗。正是这种精妙的架构设计与高效的算法优化相结合,使得「Ring-flash-2.0」在性能上实现了质的飞跃。

具体到实际性能表现,「Ring-flash-2.0」模型在多个关键指标上都交出了令人瞩目的答卷。首先,在推理速度方面,该模型展现出了惊人的效率。在处理长达128K tokens的上下文时,其推理速度能够稳定维持在每秒200 tokens以上(200+token/s)。这一速度意味着模型能够快速理解和处理海量的文本信息,无论是超长文档的阅读理解、复杂指令的执行,还是多轮对话的流畅进行,都能提供极速的响应体验,极大地提升了用户交互的实时性和流畅度。对于需要处理长文本的应用场景,如法律文书分析、学术论文综述、代码库理解等,这种高速推理能力将带来革命性的效率提升。

更为重要的是,「Ring-flash-2.0」在核心能力场景的表现上,实现了“小参数、大性能”的跨越。在数学推理这一公认的难题上,该模型参加了美国数学邀请赛(AIME)的模拟测试,并取得了86.98分的优异成绩。AIME竞赛以其高难度和强逻辑性著称,能够在这一赛事中获得如此高分,充分证明了「Ring-flash-2.0」模型在复杂逻辑推理、符号运算以及问题拆解方面的卓越能力。这意味着该模型不仅能够处理日常的问答,更能胜任需要深度思考和精密计算的专业任务。

在代码生成领域,「Ring-flash-2.0」同样表现出色。通过CodeForces平台的ELO评分系统测试,该模型获得了90.23的ELO分值。CodeForces是全球知名的程序设计竞赛平台,其ELO评分能够客观反映模型解决复杂算法问题、编写高效代码的能力。90.23的评分表明,「Ring-flash-2.0」已经具备了接近中级程序员的代码水平,能够协助开发者进行代码编写、调试、优化,甚至独立完成一些中等难度的编程任务。这对于提升软件开发效率、降低开发门槛具有重要意义。

值得强调的是,「Ring-flash-2.0」在上述数学推理和代码生成等核心场景中的表现,已经达到了传统400亿(40B)参数规模的密集型(Dense)模型的水平。这是一个极具里程碑意义的成果。传统的Dense模型需要激活全部参数进行计算,资源消耗巨大,而「Ring-flash-2.0」仅用61亿激活参数就实现了与之相当的性能,这意味着在相同的性能目标下,MoE架构的「Ring-flash-2.0」能够显著降低硬件投入和能源消耗,这对于推动大模型的绿色可持续发展以及在资源受限环境下的部署应用,都具有不可估量的价值。

蚂蚁集团此次开源「Ring-flash-2.0」模型,其影响是多方面且深远的。首先,对于学术界而言,“棒冰(icepop)”算法的提出和成功应用,为解决MoE模型训练稳定性这一世界性难题提供了新的思路和方法论,有望激发更多相关的研究和探索。开源的模式也使得全球的研究者能够共同参与到模型的改进和优化中来,加速大语言模型技术的整体进步。其次,对于产业界,这款高效、高性能的模型为各类AI应用的开发提供了强大的基础工具。企业和开发者可以基于「Ring-flash-2.0」进行二次开发和定制化部署,快速构建出满足特定需求的AI产品和服务,从而降低研发成本,缩短产品周期,推动AI技术在金融、教育、医疗、智能制造等各个领域的深度应用。

展望未来,随着「Ring-flash-2.0」模型的开源和推广,我们有理由相信,MoE架构将在大语言模型领域扮演越来越重要的角色。蚂蚁集团在该领域的技术积累和开放共享的态度,不仅彰显了中国科技企业在全球AI竞争中的实力,也为推动人工智能技术的健康发展和普惠应用贡献了积极力量。「Ring-flash-2.0」的成功,无疑为大模型的轻量化、高效化、实用化发展指明了一条可行的路径,我们期待看到基于这一模型能够诞生出更多创新的应用和服务,为社会带来更大的价值。

【免费下载链接】Ring-flash-2.0 【免费下载链接】Ring-flash-2.0 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-flash-2.0

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值