Ring-1T重磅发布:万亿参数思维模型开启开源推理新纪元

Ring-1T重磅发布:万亿参数思维模型开启开源推理新纪元

【免费下载链接】Ring-1T 【免费下载链接】Ring-1T 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-1T

今日,我们正式推出万亿参数思维模型Ring-1T,该模型采用开源首发模式——开发者可通过Hugging Face与ModelScope平台获取模型权重,或直接通过灵犀聊天页面及ZenMux平台体验对话交互与API调用服务(相关链接详见文末)。

继上月末发布预览版后,Ring-1T通过大规模可验证奖励强化学习(RLVR)持续迭代训练,进一步释放万亿参数基座模型的自然语言推理潜能。经过人类反馈强化学习(RLHF)优化,模型通用能力得到精细打磨,本次发布的版本在多任务性能平衡上实现显著提升。

该模型基于灵犀2.0架构开发,依托含1万亿总参数、500亿激活参数的Ling-1T-base基座模型构建,支持最长128K tokens上下文窗口。借助自研的icepop强化学习稳定技术与高效强化学习系统ASystem(其AReaL框架已开源),团队实现了MoE架构强化学习的平滑扩展——从百亿级(Ring-mini-2.0)到千亿级(Ring-flash-2.0)再到万亿级(Ring-1T)参数规模,大幅增强模型深度推理与自然语言推断能力。

模型资源获取

开发者可通过以下渠道下载Ring-1T模型。用户可优先选择ModelScope平台以提升下载速度:

模型版本上下文长度下载链接
Ring-1T64K -> 128K (YaRN)🤗 HuggingFace    🤖 ModelScope
Ring-1T-FP864K -> 128K (YaRN)🤗 HuggingFace    🤖 ModelScope

注:历史版本模型可通过Huggingface或ModelScope平台的inclusionAI组织页面获取完整资源集合。

深度推理能力持续进化

为全面评估Ring-1T的推理性能,研究团队选取代表性开源思维模型(Ring-1T-preview、Deepseek-V3.1-Terminus-Thinking、Qwen-235B-A22B-Thinking-2507)及闭源API(Gemini-2.5-Pro与GPT-5-Thinking(High))作为对照基准。测试结果显示,相较于此前开源的预览版,Ring-1T在各项任务中表现出更均衡的性能分布。特别在数学竞赛(AIME 25、HMMT 25)、代码生成(LiveCodeBench、CodeForce)、逻辑推理(ARC-AGI-1)等挑战性基准测试中,该模型取得开源领域领先成绩;同时在综合能力评估(Arena-Hard-v2.0)、医疗健康(HealthBench)及创意写作(Creative Writing v3)任务中展现出强劲竞争力。

Ring-1T在各任务上的性能对比图 该图表直观呈现了Ring-1T与同类模型在多维度任务中的性能差异。通过对比不同颜色曲线的波动趋势,可清晰观察到Ring-1T在推理密集型任务中的显著优势,为开发者选择合适模型提供数据支持。

尽管在预训练、指令微调及强化学习提示的全流程中实施了字符串级与语义级污染过滤,但早期发布基准的严格去污染仍是行业共同面临的挑战。为更客观验证模型深度推理能力,团队采用2025年7月举办的国际数学奥林匹克竞赛(IMO 2025)及刚结束的ICPC世界总决赛2025作为测试场景。

IMO 2025测试中,研究人员将Ring-1T集成至多智能体框架AWorld(https://gitcode.com/hf_mirrors/inclusionAI/AWorld),采用纯自然语言推理模式解题。结果显示,模型首次尝试即成功解决第1、3、4、5题(达到IMO银牌水平),第三次尝试中完成第2题几何证明的近完美解答。针对全场最难的第6题(IMO 2025中无AI选手正确解答),Ring-1T收敛至与Gemini 2.5 Pro相同的"4048"答案(正确答案为2112)。团队认为,通过持续优化,该模型未来有望实现单次尝试达到IMO金牌水平。

IMO 2025 Problem 1解题过程 此图展示了Ring-1T解答IMO 2025第一题的完整推理链。通过分步骤的逻辑推导过程,清晰呈现了模型如何将复杂问题分解为可解决的子问题,体现其结构化思维能力。

IMO 2025 Problem 3解题过程 该解题轨迹记录了模型处理组合数学问题的思考路径。图中不同颜色标记的推导阶段,对应模型在假设验证、反例构造等关键推理环节的策略选择,为研究数学推理AI提供了宝贵案例。

在ICPC World Finals 2025测试中,团队对比了GPT-5-Thinking、Gemini-2.5-Pro与Ring-1T的编程能力。在允许模型直接解题三次尝试的条件下,三者分别解决6题(CDEFKL)、3题(DFK)和5题(DFJKL)。结果表明Ring-1T在顶级国际程序设计竞赛中同样展现卓越性能。相关竞赛的模型解题轨迹(IMO轨迹详见文末)将随进一步测试同步开源,团队期待与社区协作挖掘该万亿参数思维模型的推理潜力。

Icepop:长效训练保障强化学习稳定性

在MoE模型的强化学习训练中,训练与推理引擎的算子实现差异较密集模型更为显著。这种分歧随序列长度和训练步数累积而加剧,尤其在长序列生成与 extended 训练周期中表现突出。如下实验所示,原始GRPO算法在相对较少的训练步骤后开始崩溃,而团队提出的Icepop算法通过掩码双向截断技术校正分布,有效缩小训练与推理阶段的差距——为快速扩大的训练-推理差异"降温"。

GRPO与Icepop算法训练-推理差异对比图 图表对比了两种算法在训练过程中的性能稳定性。蓝色曲线显示GRPO算法在约500步后出现明显的性能震荡,而橙色曲线的Icepop算法则保持平稳下降趋势,验证了自研技术对训练稳定性的提升效果。

GRPO与Icepop算法最大训练-推理差异对比图 该热力图直观呈现两种算法在不同训练阶段的最大差异值。红色区域代表GRPO算法在高步数时的显著波动,而Icepop算法对应的蓝色区域显示其能在全周期维持低差异水平,为万亿级模型训练提供关键技术保障。

ASystem:自研强化学习框架"驾驭"万亿级训练

为确保万亿参数基座模型的稳定高效强化学习训练,团队独立研发高性能强化学习系统ASystem。该系统采用SingleController + SPMD架构,在训练推理引擎层面针对万亿级模型特有的内存管理与权重交换难题进行深度优化。通过自研的训练推理统一内存池技术,实现透明内存卸载,高效释放内存碎片,降低内存不足风险。借助GPU间直接P2P通信与原地更新等技术,实现秒级、零冗余的模型权重交换。

快速上手指南

🚀 在线体验

开发者可通过ZenMux平台直接体验Ring-1T:ZenMux

🔌 API调用

通过以下Python代码示例实现API调用:

from openai import OpenAI

# 1. 初始化OpenAI客户端
client = OpenAI(
    # 2. 配置API基础地址
    base_url="https://zenmux.ai/api/v1",
    # 3. 替换为ZenMux用户控制台获取的API密钥
    api_key="<your ZENMUX_API_KEY>",
)

# 4. 发送推理请求
completion = client.chat.completions.create(
    # 5. 指定模型名称
    model="inclusionai/ring-1t",
    messages=[
        {
            "role": "user",
            "content": "生命的意义是什么?"
        }
    ]
)

print(completion.choices[0].message.content)

部署方案

SGLang部署

环境准备

团队将在近期提交模型至SGLang官方仓库,当前可通过以下步骤准备运行环境:

pip3 install -U sglang sgl-kernel
推理服务启动

SGLang目前支持BF16和FP8两种精度模型,具体取决于${MODEL_PATH}中模型的数据类型。

以下是多节点GPU部署Ring-1T的示例(主节点IP为${MASTER_IP},服务端口为${PORT}):

  • 启动服务端:
# 节点0:
python -m sglang.launch_server --model-path $MODEL_PATH --tp-size 8 --pp-size 4 --dp-size 1 --trust-remote-code --dist-init-addr $MASTER_IP:2345 --port $PORT --nnodes 4 --node-rank 0 

# 节点1:
python -m sglang.launch_server --model-path $MODEL_PATH --tp-size 8 --pp-size 4 --dp-size 1 --trust-remote-code --dist-init-addr $MASTER_IP:2345 --port $PORT --nnodes 4 --node-rank 1 

# 节点2:
python -m sglang.launch_server --model-path $MODEL_PATH --tp-size 8 --pp-size 4 --dp-size 1 --trust-remote-code --dist-init-addr $MASTER_IP:2345 --port $PORT --nnodes 4 --node-rank 2 

# 节点3:
python -m sglang.launch_server --model-path $MODEL_PATH --tp-size 8 --pp-size 4 --dp-size 1 --trust-remote-code --dist-init-addr $MASTER_IP:2345 --port $PORT --nnodes 4 --node-rank 3

# 注:以上为示例配置,请根据实际环境调整参数
  • 客户端请求:
curl -s http://${MASTER_IP}:${PORT}/v1/chat/completions \
  -H "Content-Type: application/json" \
  -d '{"model": "auto", "messages": [{"role": "user", "content": "法国的首都是哪里?"}]}'

更多使用方法参见SGLang文档

vLLM部署

环境准备
pip install vllm==0.11.0
推理服务启动

以下是多节点GPU部署示例(主节点IP为${MASTER_IP},服务端口为${PORT},模型路径为${MODEL_PATH}):

# 步骤1. 在所有节点启动ray集群

# 步骤2. 仅在节点0启动vllm服务:
vllm serve $MODEL_PATH --port $PORT --served-model-name my_model --trust-remote-code --tensor-parallel-size 32 --gpu-memory-utilization 0.85


# 注:以上为示例配置,请根据实际环境调整参数

为在vLLM中使用YaRN技术处理长上下文,需完成两项配置:

  1. 在模型的config.json文件中添加rope_scaling字段,示例如下:
{
  ...,
  "rope_scaling": {
    "factor": 4.0,
    "original_max_position_embeddings": 32768,
    "type": "yarn"
  }
}
  1. 启动vLLM服务时添加--max-model-len参数指定期望的最大上下文长度。

详细配置指南参见vLLM官方说明文档

微调建议

推荐使用Llama-Factory工具进行Ring模型微调,具体流程参考Ring微调文档

局限与未来规划

Ring-1T作为百灵团队在万亿级深度思维模型领域的首次尝试,当前版本可能存在身份识别偏差、语言混排、重复生成等偶发问题。此外,由于注意力架构仍采用Ling 2.0的GQA方案,长上下文场景下的推理效率仍有优化空间。

团队将在后续版本中持续改进这些方面,热切欢迎社区反馈。值得注意的是,Ring-1T的训练仍在进行中,研发团队致力于进一步释放该万亿参数基座模型的推理潜能,期待尽快与公众分享更成熟的升级版本。

欢迎访问开源仓库与演示页面获取使用资源:

Hugging Face: https://huggingface.co/inclusionAI/Ring-1T

ModelScope: https://modelscope.cn/models/inclusionAI/Ring-1T

灵犀聊天(中文用户): https://ling.tbox.cn/chat

ZenMux(海外开发者,提供聊天测试与API服务): https://zenmux.ai/inclusionai/ring-1t?utm_source=hf_inclusionAI

Ring-1T@Aworld IMO测试轨迹: https://link.gitcode.com/i/22af4916b50901be23ae9abdffbab533

许可协议

本代码仓库采用MIT许可证授权。

常见问题

推荐温度参数?0.6
推荐top_p参数?0.95

引用文献

@article{ling2025everystep,
  title={Every Step Evolves: Scaling Reinforcement Learning for Trillion-Scale Thinking Model},
  author={Team, Ling and Shen, Anqi and Li, Baihui and Hu, Bin and Jing, Bin and Chen, Cai and Huang, Chao and Zhang, Chao and Yang, Chaokun and Lin, Cheng and Wen, Chengyao and Li, Congqi and Zhao, Deng and Yuan, Dingbo and You, Donghai and Mao, Fagui and Meng, Fanzhuang and Xu, Feng and Li, Guojie and Wang, Guowei and Dai, Hao and Zheng, Haonan and others},
  journal={arXiv preprint arXiv:2510.18855},
  year={2025}
}

【免费下载链接】Ring-1T 【免费下载链接】Ring-1T 项目地址: https://ai.gitcode.com/hf_mirrors/inclusionAI/Ring-1T

创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值