Gemini-2.5-Pro登顶,推理模型强势领跑丨大语言模型4月最新榜单揭晓

大模型技术在全球范围内持续加速演进,各大科技公司竞相推出新一代模型,不断突破语言理解、逻辑推理、代码生成等关键能力的上限,推动AI从单一任务助手迈向多领域协同的智能体。与此同时,以“推理能力”为核心的新模型大量涌现,成为近期技术演进的焦点。从数学计算、逻辑推理到科学问答与代码生成,推理模型不断刷新AI在复杂任务中的表现边界,呈现出从“会答”向“会推理”的跃升趋势。在这一过程中,技术创新与实际应用加速融合,正在重塑人工智能的能力边界与产业格局。

司南持续关注大模型的发展动态,近期针对国内外主流大语言模型进行了全面评测,现公布司南最新(即4月)大语言模型评测榜单!本次榜单囊括了国内外共27个大语言模型,包含国内外主流闭源模型和社区开源模型。

最新榜单解读

Gemini-2.5-Pro-Preview-05-06登顶

在本次榜单评测中,通义千问、字节豆包、谷歌、深度求索等多个厂商发布的最新模型在各个维度展开了激烈竞争,表现各有高低。最终,谷歌发布的Gemini-2.5-Pro-Preview-05-06凭借其综合性能的微弱优势,成功登顶本次榜单,成为行业新标杆。

推理模型全面领先

在本次榜单评测中,推理模型的全方位领先成为了一项核心趋势,在排名前十的模型中,有九个都是推理模型。如Gemini-2.5-Pro-Preview-05-06、Doubao-1.5-thinking-pro、Qwen3-235-A22B (Thinking)、o4-mini-high等模型,在数学和代码等任务上表现尤为出色,展现了强大的能力。

开闭源模型分庭抗礼

本次榜单前列模型中,涌现出Gemini-2.5-Pro-Preview-05-06、Doubao-1.5-thinking-pro、o4-mini-high等具有强大能力的闭源模型,同时Qwen3-235B-A22B、DeepSeek-R1、GLM-Z1-32B-0414等开源模型也展现了与闭源模型水平相当的能力。二者形成互补格局,共同构建起激发技术创新、驱动产业落地的大模型生态体系。

模型能力分化

o4-mini-high模型在数学和代码能力上登顶榜首,Gemini-2.5-Pro-Preview-05-06展现出最佳的知识能力,而Qwen3-235-A22B (Thinking)则在推理能力上最为领先;语言和指令跟随这两个子类分别由GLM-Z1-32B-0414和ERNIE-X1-Turbo-32K以微弱优势取得领先。值得注意的是,o系列模型(包括o4-mini-high和o3-mini-high)在涉及开放生成的任务中表现相对受限,这可能与其训练方式和输出结构有关。

榜单更新说明

相较于2025年1月榜单,本次榜单的主要更新包括:

新增模型:Gemini-2.5-Pro-Preview-05-06、GPT-4.1-20250414、ERNIE-X1-Turbo-32K、Doubao-1.5-thinking-pro-250415、o4-mini-high、Grok-3、Spark-X1等闭源模型,以及Qwen3-235B-A22B (Thinking)、Llama4-Maverick-17B-128E-Instruct、GLM-Z1-32B-0414等开源模型。

评测集迭代:持续更新闭源测评数据集,纳入来自CompassArena大模型竞技场的真实用户提问 、最新编程比赛、最新数理化竞赛题以及人工合成推理计算等问题,确保题目既有足够的新颖性并且能反映模型的真实差距。

优化推理参数:为了更准确公平地评估推理模型性能,本次对所有模型推理参数进行了优化,设置Temperature=0.6,TopP=0.95,TopK=20,最长输出长度32000(包括推理过程)。

月度榜单评测基准

司南大语言模型官方自建评测榜单,综合评估商业 API 模型和开源模型在 语言、推理、知识、代码、数学、指令跟随六大能力维度,这些维度进一步细化为包括自然语言处理、理工科知识、通用推理、数学竞赛,逻辑谜题推理等十余项细分任务,以实现对行业开源模型和商业 API 模型进行全面评测分析。

*不同能力维度会根据任务形式选用主观或客观评测方案。总分基于各能力维度加权获得: 语言(1/9)、推理(2/9)、知识(1/9)、代码(2/9)、数学(2/9)、指令跟随(1/9)。

图片

最新榜单概览

综合榜单

图片

子维度榜单

语言

推理

备注:360Zhinao2-O1.5与GPT-4.1-20250414;MiniMax-Text-01与Llama4-Scout-17B-16E-Instruct在推理子维度得分相同。

知识

备注:Doubao-1.5-thinking-pro-250415与Qwen3-235B-A22B (Thinking);GLM-Z1-32B-0414与Llama4-Scout-17B-16E-Instruct;Qwen3-32B (Thinking)与Bailing-Lite-20250220在知识子维度得分相同。

代码

备注:Qwen3-235B-A22B (Thinking)与o4-mini-high在代码子维度得分相同。

数学

指令跟随

备注:360Zhinao2-O1.5与Claude 3.7 Sonnet (Thinking)在指令跟随子维度得分相同。

评测题目示例

  • 指令跟随

问题:

我在准备一个关于海上移动通信业务标识码的报告,这个标识码在确保海上通信的安全和高效方面发挥了重要作用。但是我觉得报告还缺少一些实际应用的例子,比如这些标识码如何在紧急情况下帮助船只之间或者与陆地进行高效沟通。你能帮我提供一些这方面的真实案例或者见解吗?注意你的回复需要满足以下要求:1.<<结构格式限制>>你的回复必须分为三个自然段,每个自然段开头用【案例】标识。2.<<关键词限制>>在描述每个案例时,必须包含关键词“标识码”和“紧急情况”。3.<<数据要求限制>>每个案例必须包含具体的时间、地点和船只名称。4.<<互动性要求限制>>在介绍完每个案例后,请设计一个相关问题,引导读者思考标识码的应用价值。

Checklist:
回复是否分为了三个自然段,且每个自然段开头使用了【案例】标识
回复在描述每个案例时是否包含了关键词“标识码”和“紧急情况”
回复的每个案例是否包含具体的时间、地点和船只名称
回复在介绍完每个案例后是否设计了一个相关问题

Gemini-2.5-Pro-Preview-05-06回复:

【案例】2021年5月15日凌晨,货轮“海洋探索者号”(Ocean Explorer)在英吉利海峡遭遇恶劣天气,船体剧烈晃动导致部分集装箱移位,船只严重倾斜并开始进水。船长立即启动了船上的GMDSS(全球海上遇险与安全系统)设备,通过按下DSC(数字选择性呼叫)遇险按钮,发送了包含该船唯一“标识码”(MMSI: 235093220)的遇险警报。法国格里内角(Cap Gris-Nez)海岸警卫队在02:35 UTC收到了这个带有精确“标识码”的信号,立即识别出是“海洋探索者号”发出的求救,并根据其“标识码”关联的GPS数据迅速定位了船只。由于“标识码”的准确传递,救援协调中心能够快速调动附近的搜救船只和直升机前往现场,最终在船只沉没前成功救起了全部22名船员。这次“紧急情况”的处理效率,很大程度上得益于“标识码”的快速识别和信息传递功能。
思考问题:如果没有这个独特的“标识码”,搜救中心将如何快速准确地识别遇险船只并获取其关键信息,从而可能对救援时间造成怎样的影响?
【案例】2022年9月8日下午,在南中国海某繁忙航道上,油轮“远洋和谐号”(Ocean Harmony, MMSI: 356887000)的船员发现前方约2海里处,一艘名为“海豚号”(Dolphin, 假设MMSI: 538004511)的散货船突然冒出浓烟,疑似发生火灾。由于“海豚号”可能因“紧急情况”导致通信设备受损或船员忙于自救,未能及时发出有效的遇险信号。“远洋和谐号”的船长立即使用DSC设备,向最近的海岸电台发送了“他船遇险”的DSC警报,并在报文中准确输入了观察到的“海豚号”的船名及其“标识码”(如果可见或已知)。同时,他们也通过VHF频道16尝试直接联系“海豚号”并向周边船只通报。岸基救援机构凭借“远洋和谐号”提供的包含“标识码”的信息,迅速核实了“海豚号”的注册信息和大致位置,为后续的消防和救援行动争取了宝贵时间。
思考问题:在这种由第三方船只协助的“紧急情况”下,准确的“标识码”(无论是遇险船只的还是报告船只的)如何帮助救援力量评估现场情况并有效调度多方资源?
【案例】2023年2月20日夜间,渔船“希望之旅号”(Journey of Hope, MMSI: 412345678)在印度洋中部进行远洋捕捞作业时,一名船员突发急性阑尾炎,情况危急,这是一起典型的医疗“紧急情况”。船长利用船载卫星通信设备,通过其预设的船舶“标识码”连接了国际海上医疗援助服务(TMAS)。该“标识码”不仅确认了船只身份,还使得医疗机构能够快速调取该船预存的船舶资料(如船员名单、基本医疗设备等,如果系统支持)。医生通过卫星电话指导船上人员进行了初步处理,并根据“标识码”提供的船舶精确位置和航向航速,协调了距离最近且有医疗能力的商船或军舰前往会合,或安排了远程医疗指导下的紧急返航。整个过程中,“标识码”确保了通信对象的准确性和信息传递的可靠性。
思考问题:除了直接的求救信号,船舶“标识码”在哪些非碰撞/沉没类的“紧急情况”下,例如医疗急救、遭遇海盗或重要航行警告的紧急传递中,同样能发挥关键作用以保障船岸间的高效沟通? 

o4-mini-high回复:

【案例】2021年5月15日02:30,地点:中国东海舟山群岛附近,船只名称“海运先锋”。当晚,这艘货轮因机舱突发火情发出紧急情况呼叫,船员通过船舶移动业务标识码准确向海事管理中心发送了数字优先呼叫(DSC)信号。由于标识码中嵌入了该船的MMSI编码,岸基指挥中心迅速定位了船舶位置,并调派近岸消防船和救援艇赶赴现场,火势在不到30分钟内得到控制,避免了更严重的损失。
问题:在类似夜间火情的紧急情况下,你认为标识码的精确定位功能如何影响救援效率?
【案例】2022年9月8日14:20,地点:亚丁湾公海水域,船只名称“东方海燕”。该货船在暴风雨中发生主机故障,船只失去动力后漂移至海盗频发海域,船长通过船舶移动通信业务标识码发出了SOS求救信号,并附带位置信息。附近通过岸基台接收到信号后,利用标识码中的船舶ID立即识别目标,并通知友邻商船护航舰前往保护,随后多方协同成功将“东方海燕”拖离险区并进行紧急修复。
问题:在海盗威胁与机动受限的双重紧急情况下,你觉得标识码的身份验证和信息传递功能在哪些方面最关键?
【案例】2023年6月30日19:45,地点:英吉利海峡航道中央水道,船只名称“太平洋号”。“太平洋号”在能见度低的雾夜与一艘渔船发生轻微碰撞,渔船人员轻伤且无法返航。太平洋号值班官员使用船舶移动业务标识码向最近海事救助协调中心发送紧急情况报告,不仅报告了事故性质,还同步上传了船位和受损情况图片。救助中心通过标识码迅速锁定太平洋号,调度附近救助船和医疗直升机实施伤员救治与协助渔船拖带作业,确保无人员伤亡。  
问题:当雾夜发生碰撞事故时,你认为标识码在信息同步和多方协同中的优势体现在哪里?
  • 两条回答都严格遵循了用户的要求,内容丰富,结构清晰,满足Checklist中的所有标准。

  • o4-mini-high的回答较为简介精炼,相较于此,Gemini-2.5-Pro-Preview-05-06的回复不仅提供了详细的案例描述,还进一步解释了标识码在不同紧急情况下的具体作用,如快速识别遇险船只、协调救援资源和确保信息传递的可靠性,在细节描述和问题设计上表现得更为深入和具体。

  • 数学

问题:

表达式 $$200 * 895 * 169 + 1907 + 590 * 569$$ 在通常运算规则下的结果是一个值,但如果允许插入括号,则可能得到不同的结果。共有多少种不同的数值?请逐步推理,并将最终答案写在\\boxed{}中。

标准答案:15

o4-mini-high回复:

我们把原式视作 “a op₁ b op₂ c op₃ d op₄ e op₅ f” ,其中
    a=200, b=895, c=169, d=1907, e=590, f=569;
    op₁=*, op₂=*, op₃=+, op₄=+, op₅=*。  
    令 D(i,j) 表示子串 i…j(以 a 为第 1 项,下标自增)的所有可能值。
按长度递推可得:
1) 纯乘段 [1,3] 和 [5,6]、纯加段 [3,5] 各只有 1 种值:D(1,3)={200·895·169=30251000}, 
D(5,6)={590·569=335710}, 
D(3,5)={169+1907+590=2666}。
2) 逐步向外合并,计算出 D(2,4)={895·2076=1858020, 151255+1907=153162} (2 种), 
D(4,6)={1907+335710=337617, 2497·569=1420793} (2 种),
D(1,4)={200·D(2,4), 30251000+1907} ={371604000, 30632400, 30252907} (3 种),
D(2,5)={895·2666, 151255+2497, D(2,4)+590} ={2386070, 153752, 1858610} (3 种),
D(3,6)={169+D(4,6), 2076+335710, 2666·569} ={337786, 1420962, 1516954} (3 种)。
3) 继续合并得 D(1,5)=6 种,D(2,6)=8 种,
最终  D(1,6)=D(1,1)*D(2,6) ∪ D(1,2)*D(3,6) ∪ D(1,3)+D(4,6) ∪ D(1,4)+D(5,6) ∪ D(1,5)*D(6,6) 共计 15 个不同的值。  
因此答案为\\boxed{15}。

Doubao-1.5-thinking-pro回复:

要解决这个问题,我们需要分析表达式 \(200 \times 895 \times 169 + 1907 + 590 \times 569\) 在允许插入括号时的不同结果数。关键在于理解运算的结合律和优先级。

### 关键分析步骤:
1. **乘法的结合律**:对于连续的乘法运算(如 \(200 \times 895 \times 169\)),括号的插入不会改变结果,因为乘法满足结合律,即 \((a \times b) \times c = a \times (b \times c)\)。因此,这部分的结果是唯一的。

2. **加法的结合律**:对于连续的加法运算(如 \(A + 1907 + C\),其中 \(A = 200 \times 895 \times 169\),\(C = 590 \times 569\)),括号的插入也不会改变结果,因为加法满足结合律,即 \((A + 1907) + C = A + (1907 + C)\)。因此,这部分的结果也是唯一的。

3. **乘法与加法的优先级**:题目中表达式的结构是乘法和加法的混合运算,但括号只能改变运算的结合顺序,而不能改变乘法和加法的基本运算规则。由于乘法的结果(\(A\) 和 \(C\))已由结合律确定唯一,加法的结果(\(A + 1907 + C\))也由结合律确定唯一,因此无论如何插入括号,最终结果始终是这三个唯一值的和。

### 结论:
尽管可以插入括号改变运算的结合顺序,但由于乘法和加法的结合律,所有可能的括号插入方式最终都会得到相同的结果。
\(\boxed{1}\)。
  • 在两个模型的回答中,o4-mini-high的回答严格遵循分治策略,正确处理混合运算的优先级与结合顺序,统计所有可能分割点的结果集合,并得出了正确的结果。但相比之下,Doubao-1.5-thinking-pro认为插入括号不会改变运算结果,忽略了运算符优先级差异及混合运算的多样性,因此得出了错误结论。

  • 推理

问题

老师的年龄。班里的同学们想知道老师多大了。老师就给他们写下了一些数:38,36,35,43,45,46,51,55,57,61,62,60。老师把个位数告诉了A,把十位数告诉了B。B:我不知道哎。A:我也不知道。B:噢,我知道了。A:我也知道了。问:老师的年龄多大?

标准答案:61

Qwen3-235B-A22B (Thinking)回复:

### 问题解析
老师给出了一组可能的年龄列表:  
38, 36, 35, 43, 45, 46, 51, 55, 57, 61, 62, 60
然后,老师将**个位数**告诉了A,**十位数**告诉了B。两人依次进行了以下对话:
1. B说:“我不知道。”  
2. A说:“我也不知道。”  
3. B说:“噢,我知道了。”  
4. A说:“我也知道了。”
我们的目标是根据这些信息,推理出老师的**真实年龄**。
### 第一步:B说“我不知道”
B知道的是**十位数**。如果他知道的十位数对应**唯一的年龄**,他就能直接知道老师的年龄。  
但他说“不知道”,说明他所知道的十位数对应**多个年龄**。
我们列出每个十位数对应的年龄:
- 30s:35, 36, 38  
- 40s:43, 45, 46  
- 50s:51, 55, 57  
- 60s:60, 61, 62  
每个十位数都对应多个年龄,因此**B说“不知道”******是合理的,没有排除任何年龄。
### 第二步:A说“我也不知道”
A知道的是个位数****。如果她知道的个位数在所有年龄中******唯一出现**,她就能直接确定老师的年龄。
我们统计每个个位数的出现次数:
- 0:60(唯一)  
- 1:51, 61  
- 2:62(唯一)  
- 3:43(唯一)  
- 5:35, 45, 55  
- 6:36, 46  
- 7:57(唯一)  
- 8:38(唯一)
因此,**个位数为0、2、3、7、8的年龄**可以被排除,因为A说“我也不知道”。
排除后剩下的年龄是:
- 35, 36, 45, 46, 51, 55, 61
### 第三步:B说“我知道了”
B知道的是**十位数**,现在他能确定年龄,说明在剩下的列表中,**他所知道的十位数只对应一个年龄**。
我们再次统计每个十位数在剩余列表中的出现次数:
- 30s:35, 36  
- 40s:45, 46  
- 50s:51, 55  
- 60s:61(唯一)
因此,**只有十位数为6时,B才能确定年龄是61**,其余十位数都对应多个年龄,无法确定。
### 第四步:A说“我也知道了”
A知道的是**个位数**,她现在也能确定年龄,说明在B说出“我知道了”之后,**她所知道的个位数只对应一个年龄**。
我们看个位数为1的年龄(51 和 61):
- 如果年龄是51,B知道的十位是5,对应51和55,B无法确定;
- 如果年龄是61,B知道的十位是6,对应61,B可以确定。
因此,**只有当年龄是61时,B能确定,A也能确定**。
### 结论
综合所有推理,只有**61岁**满足所有对话条件。
### 最终答案:
$$\boxed{61}$$

Claude 3.7 Sonnet (Thinking)回复:

I need to determine the teacher's age based on the given information.

Given numbers: 38, 36, 35, 43, 45, 46, 51, 55, 57, 61, 62, 60

Student A knows the units digit, and student B knows the tens digit.

Let's analyze the conversation:
1. B initially doesn't know the age
2. A also doesn't know the age
3. After hearing A's statement, B figures out the age
4. After hearing B's realization, A also figures out the age

First, I'll organize the numbers by their tens digits:
- 30s: 38, 36, 35
- 40s: 43, 45, 46
- 50s: 51, 55, 57
- 60s: 61, 62, 60

Now, I'll organize by units digits:
- Units digit 0: 60
- Units digit 1: 51, 61
- Units digit 3: 43
- Units digit 5: 35, 45, 55
- Units digit 6: 36, 46
- Units digit 7: 57
- Units digit 8: 38
- Units digit 2: 62

B initially doesn't know the age, which means there are multiple numbers with the same tens digit. This is true for all tens digits (3, 4, 5, 6).

A also doesn't know the age, which means there are multiple numbers with the same units digit. Looking at the units digits, we see that 0, 3, 7, 8, and 2 appear only once. Since A doesn't know, the units digit must be 1, 5, or 6.

After hearing A's statement, B figures out the age. This means that among the numbers with units digit 1, 5, or 6, there must be exactly one number with a specific tens digit.

Let's check:
- Units digit 1: 51, 61 (two different tens digits)
- Units digit 5: 35, 45, 55 (three different tens digits)
- Units digit 6: 36, 46 (two different tens digits)

None of these seem to satisfy our condition directly. Let's think more carefully.

When B says "I know now," it means that B has narrowed down to a single possibility based on A's statement. A's statement was "I don't know," which means the units digit appears multiple times.

The key insight: B must have initially had a tens digit where all possible ages would have units digits that appear multiple times in our list. Then, when A says they don't know, B can eliminate some possibilities and arrive at a unique answer.

Let's check each tens digit:
- Tens digit 3: 38, 36, 35 (units digits 8, 6, 5)
- Tens digit 4: 43, 45, 46 (units digits 3, 5, 6)
- Tens digit 5: 51, 55, 57 (units digits 1, 5, 7)
- Tens digit 6: 61, 62, 60 (units digits 1, 2, 0)

For B to know after A's statement, there must be a tens digit where all but one of the units digits appear multiple times in our list.

Looking at tens digit 6: units digits are 1, 2, 0
- 1 appears in 51, 61 (multiple times)
- 2 appears only in 62 (once)
- 0 appears only in 60 (once)

Since both 2 and 0 appear only once, this doesn't work.

Looking at tens digit 5: units digits are 1, 5, 7
- 1 appears in 51, 61 (multiple times)
- 5 appears in 35, 45, 55 (multiple times)
- 7 appears only in 57 (once)

This works! If B has tens digit 5, then after A says they don't know (eliminating 7 as a possibility), B knows the age must be 57.

Finally, A knows after B's realization. This confirms our answer because once A knows B has figured out 57, A (who knows the units digit is 7) can determine the age is 57.

Therefore, the teacher's age is 57.

\boxed{57}
  • 在该问题的解答过程中,Qwen3-235B-A22B(Thinking)模型通过严密的推理步骤正确地解答了问题;但Claude 3.7 Sonnet(Thinking)模型错误地处理了排除结果时十位数为5的情况,后续混淆了应排除的选项和未排除的选项,产生了逻辑漏洞,因此得出了错误的结果。

注意事项

  1. 大语言模型官方自建榜评测榜单每三月更新一次

  2. 新模型厂商若想参与该月榜单评测,可在当月 25 日前发送邮件至 opencompass@pjlab.org.cn 申请评测申请加入司南 OpenCompass 月度评测榜单;

  3. 加入司南 OpenCompass 评测的结果默认公开;

  4. 仅支持开源或对外提供 API 服务商业化模型(内部迭代研发模型暂不支持评测);

  5. 为了确保公平性,司南通过公开采购的方式获取了商业 API 服务,其中包括使用硅基流动等服务商 API。然而,由于部分 API 的稳定性问题或敏感词过滤机制,可能会导致某些问题无法获得答案,特此进行说明。

了解更多

最新大语言模型评测榜单已同步上线至司南官网,欢迎大家访问查看更详细的评测数据!

https://rank.opencompass.org.cn/

同时,司南评测体系中大模型评测过程中所用到的工具链均在 GitHub 开源,诚挚邀请您在学术研究或产品研发过程中使用我们的工具~

https://github.com/open-compass/

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值