蚂蚁集团开源万亿参数思考模型Ring-1T:首次斩获IMO银牌,多项测评登顶开源榜首

蚂蚁集团开源万亿参数思考模型Ring-1T:首次斩获IMO银牌,多项测评登顶开源榜首

【免费下载链接】Ring-1T-preview 【免费下载链接】Ring-1T-preview 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-1T-preview

10月14日凌晨,蚂蚁集团旗下百灵团队正式发布万亿参数思考模型Ring-1T,并对外全面开源模型权重与训练技术方案。该模型在9月底推出的预览版基础上,重点强化了大规模可验证奖励强化学习(RLVR)训练流程,进一步释放万亿参数基座的自然语言推理潜能,同时通过人类反馈强化学习(RLHF)优化通用任务表现,最终在各类权威测评中实现更均衡的性能突破。

为验证Ring-1T在复杂推理领域的核心能力,百灵团队此次选择挑战国际数学奥林匹克(IMO)2025年赛题这一公认的"智力高地"。研究人员将模型接入自研多智能体协作框架AWorld,全程采用纯自然语言推理路径进行解题。实验数据显示,Ring-1T在首次解题尝试中即成功攻克第1、3、4、5题,综合表现已达到IMO竞赛银牌水平,成为全球首个具备国际奥数获奖能力的开源AI系统。更值得关注的是,在第三次尝试中,模型针对第2题几何证明题给出接近满分的推理过程;而在令多数顶尖大模型折戟的第六题中,Ring-1T将答案收敛至"4048",这一结果与Gemini 2.5 Pro的输出完全一致(官方正确答案为2112),展现出强大的复杂问题收敛能力。

作为聚焦思考能力的专业模型,Ring-1T在通用智能测评中同样表现抢眼。在衡量模型与人类偏好对齐程度的Arena-Hard V2测试中,该模型以81.59%的胜率稳居开源模型首位,已十分接近GPT-5-Thinking(High) 82.91%的成绩。在对专业严谨性要求极高的医疗问答测评HealthBench中,Ring-1T更是以总分第一的成绩刷新开源领域最佳纪录,充分证明其在垂直专业领域的知识掌握与应用能力。

Ring-1T与业界代表性思考模型的性能横评图表 如上图所示,图表清晰呈现了Ring-1T与当前业界主流思考模型在各项关键能力维度的对比。这一性能分布图谱充分体现了Ring-1T在复杂推理与通用能力上的均衡突破,为AI研究人员提供了兼具解题精度与应用广度的开源基准。

万亿参数规模模型的训练过程中,"训推精度差异"始终是困扰业界的核心难题——即训练阶段与推理阶段因实现细节差异导致的精度漂移,严重时会引发整个训练过程崩溃。为攻克这一技术瓶颈,蚂蚁集团研发团队创新提出"棒冰(icepop)"算法,通过带掩码的双向截断技术将训练-推理分布差异稳定控制在低水位区间,从根本上保障长序列、长周期训练任务的稳定性。

针对万亿参数模型强化学习训练的工程挑战,蚂蚁自研高性能强化学习系统ASystem(包含已开源的AReaL框架),重点优化显存管理机制与训推权重交换流程。该系统实现单机环境下显存碎片秒级回收与权重零冗余交换,使原本难以稳定运行的大规模强化学习训练转化为可日常化执行的常规任务。这一系列技术创新不仅支撑了Ring-1T的成功训练,更为行业提供了可复用的大模型工程化解决方案。

GRPO与icepop算法训推差异对比图(左为GRPO训推差异随训练指数上升,icepop较为平稳;右为训推差异最大值对比,icepop维持在较低水位) 图表直观展示了传统GRPO算法与蚂蚁自研icepop算法在训推差异控制上的显著对比。icepop算法通过创新性的分布冻结技术,成功将训推差异峰值降低60%以上,这一技术突破为万亿参数模型的稳定训练提供了关键保障,也为大模型工程化领域贡献了重要技术参考。

技术架构层面,Ring-1T延续采用Ling 2.0架构的1T基座模型进行后训练优化。该架构集成高度稀疏的混合专家(MoE)设计、1/32的专家激活比例、FP8混合精度计算以及多任务预训练(MTP)等前沿特性,在保证模型性能的同时实现训练与推理效率的双重提升。后训练阶段,百灵团队创新采用"LongCoT-SFT + RLVR + RLHF"三段式训练范式:通过长链思维微调(LongCoT-SFT)夯实推理基础,借助RLVR技术强化复杂问题求解能力,最终通过RLHF实现人类偏好对齐,使模型在复杂推理、指令遵循与创意写作等核心维度获得显著提升。

百灵团队表示,Ring-1T作为团队在万亿级思考模型领域的首次系统性尝试,未来将通过持续迭代进一步打磨性能边界。目前普通用户可通过HuggingFace、魔搭社区等平台下载模型权重,也可通过蚂蚁百宝箱等在线平台体验模型能力。值得注意的是,蚂蚁百灵大模型家族已形成完整产品矩阵,截至目前累计发布18款模型,参数规模覆盖160亿至1万亿区间,其中Ling-1T通用大模型与Ring-1T思考模型共同构成万亿参数双支柱,标志着百灵大模型正式迈入2.0时代。

【免费下载链接】Ring-1T-preview 【免费下载链接】Ring-1T-preview 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-1T-preview

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值