DeepSeek-V3.2-Speciale展现世界一流数学能力丨最新公开学术榜单发布

原创于 2025-12-19 18:53:49 发布 · 335 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#大模型评测 #司南评测 #人工智能 #大语言模型

榜单专栏收录该内容

11 篇文章

订阅专栏

司南大语言模型公开学术榜单致力于以客观、系统、可复现的方式，持续追踪并呈现社区前沿大模型的性能演进与技术趋势，为行业构建公正、可靠的开源评估参照体系。随着大语言模型领域进入高速发展阶段，创新活力不断释放，优质模型密集涌现，头部模型的能力迭代节奏也在持续加快。

近期，随着多家厂商推陈出新，司南大语言模型公开学术榜单也随之迎来一波更新。本次新增模型包括：DeepSeek-V3.2、DeepSeek-V3.2-Speciale、GLM-4.6、Kimi-K2-Thinking 以及 Gemini-3-Pro-Preview。

目前，榜单已覆盖 40 多个 今年以来国内外发布的大语言模型（以开源模型为主），并基于 6 个开源基准（AIME2025、IFEval、MMLU-Pro、GPQA-Diamond、HLE 以及 LiveCodeBenchV6）对模型进行了全面评测。

司南 OpenCompass 大语言模型榜单特别说明。

官方自建月度榜单：依托司南 OpenCompass 闭源评测数据集进行评测。
公开学术榜单：基于国内外具有广泛影响力的开源学术评测集（AIME2025、IFEval、MMLU-Pro、GPQA-Diamond、HLE、LiveCodeBenchV6等）进行评测。

12月大语言模型公开学术榜单概览

各模型综合均分结果如下图所示。根据最新排名可以看到，国外主流厂商中，来自 Google 的 Gemini-3-Pro-Preview 占据榜首，显示了极强的统治力。OpenAI 的 GPT-5 系列紧随其后。与此同时，多款国产开源模型同样表现亮眼：深度求索的 DeepSeek-V3.2-Speciale 与 DeepSeek-V3.2、智谱的 GLM-4.6，以及月之暗面的 Kimi-K2-Thinking 均跻身榜单前十，其整体能力已与 GPT-5 系列形成直接竞争。

如何加入大语言模型学术榜单

申请加入

新模型加入，请联系邮箱：opencompass@pjlab.org.cn

特别说明

API 模型：推荐提供 OpenAI 标准接口 API，非 OpenAI 标准接口需要在 OpenCompass 算法仓库中提 PR 以支持该模型

请邮件发送并提供可供调用的接口地址和 Key
开源模型：支持 HuggingFace/vLLM/LMDeploy/SGLang 格式的模型

建议申请者可使用 OpenCompass 评测工具进行本地自测，在邮件申请时，附上自测结果，OpenCompass 团队将在复测后上榜

榜单规则可参考：

https://opencompass.org.cn/rule