DeepSeek-V3.2-Speciale展现世界一流数学能力丨最新公开学术榜单发布

司南大语言模型公开学术榜单致力于以客观、系统、可复现的方式,持续追踪并呈现社区前沿大模型的性能演进与技术趋势,为行业构建公正、可靠的开源评估参照体系。随着大语言模型领域进入高速发展阶段,创新活力不断释放,优质模型密集涌现,头部模型的能力迭代节奏也在持续加快。

近期,随着多家厂商推陈出新,司南大语言模型公开学术榜单也随之迎来一波更新。本次新增模型包括:DeepSeek-V3.2、DeepSeek-V3.2-Speciale、GLM-4.6、Kimi-K2-Thinking 以及 Gemini-3-Pro-Preview

目前,榜单已覆盖 40 多个 今年以来国内外发布的大语言模型(以开源模型为主),并基于 6 个开源基准(AIME2025、IFEval、MMLU-Pro、GPQA-Diamond、HLE 以及 LiveCodeBenchV6)对模型进行了全面评测。

司南 OpenCompass 大语言模型榜单特别说明。

  • 官方自建月度榜单:依托司南 OpenCompass 闭源评测数据集进行评测。

  • 公开学术榜单:基于国内外具有广泛影响力的开源学术评测集(AIME2025、IFEval、MMLU-Pro、GPQA-Diamond、HLE、LiveCodeBenchV6等)进行评测。

12月大语言模型公开学术榜单概览

各模型综合均分结果如下图所示。根据最新排名可以看到,国外主流厂商中,来自 Google 的 Gemini-3-Pro-Preview 占据榜首,显示了极强的统治力。OpenAI 的 GPT-5 系列紧随其后。与此同时,多款国产开源模型同样表现亮眼:深度求索的 DeepSeek-V3.2-Speciale 与 DeepSeek-V3.2、智谱的 GLM-4.6,以及月之暗面的 Kimi-K2-Thinking 均跻身榜单前十,其整体能力已与 GPT-5 系列形成直接竞争。

图片

最新头部模型能力对比

DeepSeek-V3.2、DeepSeek-V3.2-Speciale、GLM-4.6、Kimi-K2-Thinking 等国产模型在各项能力上均十分出色。下图展示了它们在司南大语言模型公开学术榜单的各项评测基准上与国外主流模型的对比情况。

  • 在衡量高难度数学竞赛能力的 AIME2025 基准,以及指令跟随基准 IFEval上,最新一代国产开源模型能力已与 Gemini-3-Pro-Preview 以及 GPT-5-2025-08-07 处于同一水平梯队。尤其是在数学能力上,DeepSeek-V3.2-Speciale 以 96.04% 的准确率登顶榜首,展现出当前国产开源模型在高难度数学推理上的领先实力。

  • 在其余评测基准上,国产模型整体处于第二梯队。在 MMLU-Pro 基准和 GPQA-Diamond 基准上,各模型得分均与 GPT-5-2025-08-07 相当,以几分之差落后于 Gemini-3-Pro-Preview。而在复杂代码编程基准 LiveCodeBenchV6 与 高难推理基准 HLE 上,虽然 GLM-4.6 与 DeepSeek-V3.2 系列模型表现较为出色,但距离 Gemini-3-Pro-Preview 之间仍存在明显差距,仍有较大的追赶空间。

图片

图片

如何加入大语言模型学术榜单

申请加入

新模型加入,请联系邮箱:opencompass@pjlab.org.cn

特别说明

  • API 模型:推荐提供 OpenAI 标准接口 API,非 OpenAI 标准接口需要在 OpenCompass 算法仓库中提 PR 以支持该模型

    请邮件发送并提供可供调用的接口地址和 Key

  • 开源模型:支持 HuggingFace/vLLM/LMDeploy/SGLang 格式的模型

    建议申请者可使用 OpenCompass 评测工具进行本地自测,在邮件申请时,附上自测结果,OpenCompass 团队将在复测后上榜

榜单规则可参考:

https://opencompass.org.cn/rule

了解更多

更多详情内容及详细评测结果,欢迎直接访问司南官网大语言模型公开学术榜单获取!(文末点击阅读原文可直达)

https://rank.opencompass.org.cn/leaderboard-llm-academic/

同时,司南 OpenCompass 评测过程中所用到的工具链均已在 GitHub 开源,诚挚邀请您在学术研究或产品研发过程中使用我们的工具~

https://github.com/open-compass/OpenCompass/

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值