GPT-5-2025-08-07登顶!工具调用能力呈多元化竞争态势丨大语言模型7月最新榜单揭晓

GPT-5-2025-08-07登顶!国产开源模型比肩海外闭源模型丨大语言模型7月最新榜单揭晓

步入2025年下半年,大模型的竞争焦点不再仅仅是‘比参数、卷榜单’,而是转向通用能力与专业能力的深度融合,更加注重实用价值。 技术演进也不再局限于语言理解与生成的单一维度,而是迈向知识注入与技能融合的深层进化。越来越多的大模型被赋予代码编写、数学推理、科研理解等多学科能力,既能胜任日常对话任务,又能胜任复杂专业任务。AI不再只是文本生成器或聊天机器人,而正逐步演化为具备跨领域知识与多任务协作能力的“AI专家”。

司南持续关注大模型的发展动态,近期针对国内外主流大语言模型进行了全面评测,现公布司南最新(即7月)大语言模型评测榜单!本次榜单囊括了国内外共28个大语言模型,包含国内外主流闭源模型和社区开源模型。

榜单更新说明

相较于2025年4月榜单,本次榜单的主要更新包括:

  • 新增模型:GPT-5-2025-08-07、o3-high-2025-04-16、Doubao-Seed-1.6-thinking-250715、Gemini-2.5-Pro、Grok-4、Claude Sonnet 4 (Thinking)、Hunyuan-T1-20250711、iFlytek-Spark-X1-0720、Finix-P1-32B (Thinking)等闭源模型,以及Qwen3-235B-A22B-Thinking-2507、DeepSeek-R1-0528、GLM-4.5、Hunyuan-A13B-Instruct、Kimi-K2-Instruct、MiniMax-M1-80k、ERNIE-4.5-Turbo-128K等开源模型。
  • 评测集维度迭代:将原指令跟随维度并入语言维度。新增工具调用能力维度,从简单多轮调用、复杂多轮调用与综合工具调用三个子维度综合评估模型能力;其中,多轮工具调用(含简单与复杂)主要评估模型在多轮交互场景中工具调用的准确性,而综合工具调用则在更综合的场景下,评估模型调用工具的整体性能,包括准确性与效率等多个方面。
  • 评测集数据迭代:持续更新闭源测评数据集,纳入来自CompassArena大模型竞技场的真实用户提问 、最新编程比赛题目、最新数理化等学科高难度问题以及人工合成推理计算问题等,确保题目有足够的新颖性和一定的难度,能够反映模型的真实差距。

最新榜单解读

  • GPT-5-2025-08-07****登顶

在本次榜单评测中,来自字节豆包、谷歌、OpenAI、通义千问、xAI等多个厂商发布的最新模型在各个评测维度展开激烈竞争。最终,由OpenAI最新发布的GPT-5-2025-08-07以其在多个维度上表现出的综合性能优势,成功登顶榜首。

  • 国产开源模型发展趋势向好,性能比肩闭源模型

在本次榜单评测中,社区顶尖开源模型跻身前列。其中,由通义千问发布的Qwen3-235B-A22B-Thinking-2507、深度求索发布的DeepSeek-R1-0528、智谱清言发布的GLM-4.5等国产顶尖开源模型在数学、推理、语言等各维度能力上的表现已接近GPT-5-2025-08-07、o3-high-2025-04-16、Gemini-2.5-Pro、Grok-4等主流闭源模型。

  • 推理模型保持领先优势

本次榜单中具有深度推理能力的模型,例如GPT-5-2025-08-07、o3-high-2025-04-16、Qwen3-235B-A22B-Thinking-2507、Doubao-Seed-1.6-thinking-250715、DeepSeek-R1-0528、Grok-4、Gemini-2.5-Pro等,相较于非推理的模型展现出了显著的性能领先,尤其是在计算、推理、代码等领域的复杂任务上。榜单排名前十的位置已都被推理模型所占据。

  • 工具调用能力呈多元化竞争态势

在工具调用能力上,开闭源模型呈现出多元化发展格局。其中,Doubao-Seed-1.6-thinking-250715和DeepSeek-R1-0528以微弱的差距分列榜单前两位,并各自领跑闭源与开源模型。此外,国产模型与国外模型在此维度上表现势均力敌,前十名中各占五席。值得注意的是,推理模型在工具调用方面普遍优于非推理模型,例如DeepSeek-R1-0528的表现明显超过DeepSeek-V3-0324,Qwen3-235B-A22B-Thinking-2507也显著强于Qwen3-235B-A22B-Instruct-2507。

月度榜单评测基准

司南大语言模型官方自建评测榜单,综合评估商业API模型和开源模型在 语言、推理、知识、代码、数学、****工具调用六大能力维度,这些维度进一步细化为包括自然语言处理、理工科知识、学科推理、数学竞赛,多轮工具调用等十余项细分任务,以实现对行业开源模型和商业API模型进行全面评测分析。

*不同能力维度会根据任务形式选用主观或客观评测方案。总分基于各能力维度加权获得: 语言(1/9)、推理(2/9)、知识(1/9)、代码(2/9)、数学(2/9)、工具调用(1/9)。

暂时无法在飞书文档外展示此内容

最新榜单概览

综合榜单

在这里插入图片描述

子维度榜单

  • 语言
    在这里插入图片描述

  • 推理
    在这里插入图片描述

  • 知识

在这里插入图片描述

  • 代码
    在这里插入图片描述

  • 数学
    在这里插入图片描述

  • 工具调用

在这里插入图片描述

评测题目示例

数学计算

问题:

54948593 有多少个正整数因数?\n请逐步推理,并将最终答案写在\\boxed{}中。

标准答案:8

GPT-5-2025-08-07回复(Thinking过程略):

设 N = 54948593。

1) 试除小质数,发现 7|N:
54948593 ÷ 7 = 7849799,因此 N = 7 × 7849799。

2) 分解 7849799。用模 47 判断:
因为 1000 ≡ 13 (mod 47),
7849799 = 7849×1000 + 799 ≡ 7849×13 + 799 = 102836 ≡ 0 (mod 47),
故 47 | 7849799,且 7849799 ÷ 47 = 167017。
于是 N = 7 × 47 × 167017。

3) 检查 167017 的素性:√167017 ≈ 409。用所有不超过 409 的质数试除,均不能整除,故 167017 为素数。

因此,N 的素因数分解为 7 × 47 × 167017,三个素因子的指数都为 1,因数个数为
(1+1)(1+1)(1+1) = 8。

最终答案为:\boxed{8}

Claude Sonnet 4 (Thinking) 回复(Thinking过程略):

我需要找到54948593的正整数因数个数。
首先,我需要对54948593进行质因数分解。
让我从小的质数开始试除:

**检查是否能被7整除:**
$$54948593 \div 7$$

让我用长除法计算:
```
       7849799
    7) 54948593
       49
       ---
       59
       56
       ---
       34
       28
       ---
       68
       63
       ---
       55
       49
       ---
       69
       63
       ---
       63
       63
       ---
       0
```

所以 $54948593 = 7 \times 7849799$

**现在需要分解7849799:**
我需要检查7849799是否是质数。由于$\sqrt{7849799} \approx 2801.75$,我需要检查所有小于等于2801的质数。

让我系统地试除一些质数:
- 7849799不能被3整除(数位和:7+8+4+9+7+9+9=53,不被3整除)
- 7849799不能被11整除(交替数位和:7-8+4-9+7-9+9=1,不被11整除)
- 通过计算验证,7849799不能被13, 17, 19, 23等小质数整除

我继续试除了许多质数,包括:
- 29, 31, 37, 41, 43, 47, 53, 59, 61, 67, 71, 73, 79, 83, 89, 97...
- 101, 103, 107, 109, 113, 127, 131, 137, 139, 149, 151...
- 一直到1000以上的质数
通过大量的试除计算,我发现7849799不能被任何小于$\sqrt{7849799}$的质数整除。

**结论:**
7849799是一个质数。

因此:
$$54948593 = 7^1 \times 7849799^1$$

对于形如$p_1^{a_1} \times p_2^{a_2} \times \cdots \times p_k^{a_k}$的数,其正整数因数个数为:
$$(a_1 + 1)(a_2 + 1) \cdots (a_k + 1)$$

在我们的情况下:
$$\text{因数个数} = (1 + 1)(1 + 1) = 2 \times 2 = 4$$

这4个正整数因数是:
- $1$
- $7$ 
- $7849799$
- $54948593$

$\boxed{4}
  • 在该问题的解答过程中,GPT-5-2025-08-07模型基于简洁、严密的推理计算正确地解答了问题;而Claude Sonnet 4 (Thinking) 在推理试除过程中错误地将7849799判断为质数,从而导致计算错误。

学科推理

问题:

NO分子(14N与16O,非重同位素)的平均核间距为115pm,用λ=253.65nm的Hg线照射,求NO分子的斯托克斯线的位置,单位nm,保留两位小数。

标准答案:253.72 nm

Gemini-2.5-Pro 回复(Thinking过程略):

Here is a step-by-step solution to the problem.

**1. Calculate the reduced mass (μ) of the NO molecule.**
The NO molecule consists of a ¹⁴N atom and a ¹⁶O atom.
Mass of ¹⁴N (m_N) = 14.003074 u
Mass of ¹⁶O (m_O) = 15.994915 u
The reduced mass (μ) is given by the formula:
μ = (m_N * m_O) / (m_N + m_O)
μ = (14.003074 u * 15.994915 u) / (14.003074 u + 15.994915 u)
μ = 223.9750 / 29.997989 u ≈ 7.46631 u

To convert the reduced mass to kilograms, we use the conversion factor 1 u ≈ 1.660539 x 10⁻²⁷ kg:
μ = 7.46631 u * 1.660539 x 10⁻²⁷ kg/u ≈ 1.23979 x 10⁻²⁶ kg

**2. Calculate the moment of inertia (I) of the NO molecule.**
The NO molecule is treated as a rigid rotor. The moment of inertia (I) is calculated using the formula I = μ * r², where r is the average internuclear distance.
Given r = 115 pm = 115 x 10⁻¹² m = 1.15 x 10⁻¹⁰ m.
I = (1.23979 x 10⁻²⁶ kg) * (1.15 x 10⁻¹⁰ m)²
I = (1.23979 x 10⁻²⁶ kg) * (1.3225 x 10⁻²⁰ m²)
I ≈ 1.63972 x 10⁻⁴⁶ kg·m²

**3. Calculate the rotational constant (B').**
The rotational constant in terms of wavenumber (cm⁻¹) is given by B' = h / (8π²cI), where h is Planck's constant and c is the speed of light.
h = 6.62607015 x 10⁻³⁴ J·s
c = 2.99792458 x 10¹⁰ cm/s
I = 1.63972 x 10⁻⁴⁶ kg·m²

B' = (6.62607015 x 10⁻³⁴ J·s) / [8 * π² * (2.99792458 x 10¹⁰ cm/s) * (1.63972 x 10⁻⁴⁶ kg·m²)]
B' ≈ 1.7065 cm⁻¹

**4. Determine the Raman shift (Δν̃) for the Stokes line.**
For rotational Raman spectroscopy of a linear molecule, the selection rule for Stokes lines is ΔJ = +2. The energy shift is given by ΔE = E(J+2) - E(J) = B(4J+6). In terms of wavenumber, the shift is Δν̃ = B'(4J+6).
The problem asks for "the" Stokes line, which typically refers to the first Stokes line, corresponding to the transition from the ground rotational state (J=0) to the J=2 state.
For J=0, the shift is:
Δν̃ = B'(4*0 + 6) = 6B'
Δν̃ = 6 * 1.7065 cm⁻¹ = 10.239 cm⁻¹

**5. Calculate the wavenumber of the incident light (ν̃_inc).**
The wavelength of the incident light is λ_inc = 253.65 nm = 253.65 x 10⁻⁷ cm.
The wavenumber is the reciprocal of the wavelength:
ν̃_inc = 1 / λ_inc = 1 / (253.65 x 10⁻⁷ cm) ≈ 39424.40 cm⁻¹

**6. Calculate the wavenumber of the Stokes line (ν̃_stokes).**
Stokes lines have lower energy (and thus lower wavenumber) than the incident light.
ν̃_stokes = ν̃_inc - Δν̃
ν̃_stokes = 39424.40 cm⁻¹ - 10.239 cm⁻¹ = 39414.161 cm⁻¹

**7. Calculate the wavelength of the Stokes line (λ_stokes).**
The wavelength is the reciprocal of the wavenumber.
λ_stokes = 1 / ν̃_stokes = 1 / 39414.161 cm⁻¹ ≈ 2.53716 x 10⁻⁵ cm
To convert to nanometers, multiply by 10⁷:
λ_stokes = 2.53716 x 10⁻⁵ cm * 10⁷ nm/cm = 253.716 nm

**8. Round the final answer.**
The problem asks to retain two decimal places.
λ_stokes ≈ 253.72 nm

```json
{
  "answers": [
    "253.72"
  ]
}
```

Kimi-K2-Instruct 回复:

### 问题重述
我们需要计算NO分子(14N与16O,非重同位素)在λ=253.65 nm的Hg线照射下的斯托克斯线的位置。已知NO分子的平均核间距为115 pm。要求结果以nm为单位,保留两位小数。

### 解决步骤

#### 1. 理解斯托克斯线
斯托克斯线是拉曼散射中的一种现象,指散射光的频率低于入射光的频率(即波长更长)。拉曼散射的频移由分子的振动频率决定。因此,需要先计算NO分子的振动频率。

#### 2. 计算NO分子的振动频率
NO分子的振动可以近似为简谐振动,其振动频率由以下公式给出:

\[ \tilde{\nu} = \frac{1}{2\pi c} \sqrt{\frac{k}{\mu}} \]

其中:
- \(\tilde{\nu}\) 是波数(cm⁻¹)
- \(k\) 是力常数(N/m)
- \(\mu\) 是约化质量(kg)
- \(c\) 是光速(2.998 × 10⁸ m/s)

但题目没有给出力常数\(k\),因此需要用其他方法计算振动频率。一种方法是利用已知的核间距和振动频率的关系,但更简单的是直接使用已知的NO分子的振动波数。

查阅资料,NO分子的基态振动波数为:

\[ \tilde{\nu}_e = 1903.68 \, \text{cm}^{-1} \]

(这是一个已知的实验值,如果没有给出,可以通过其他方法计算。)

#### 3. 计算斯托克斯线的频率
斯托克斯线的频率(或波数)为:

\[ \tilde{\nu}_{\text{Stokes}} = \tilde{\nu}_{\text{incident}} - \tilde{\nu}_e \]

其中:
- \(\tilde{\nu}_{\text{incident}}\) 是入射光的波数
- \(\tilde{\nu}_e\) 是振动波数

计算入射光的波数:

\[ \tilde{\nu}_{\text{incident}} = \frac{1}{\lambda_{\text{incident}}} = \frac{1}{253.65 \times 10^{-7} \, \text{cm}} = 39420.42 \, \text{cm}^{-1} \]

计算斯托克斯线的波数:

\[ \tilde{\nu}_{\text{Stokes}} = 39420.42 - 1903.68 = 37516.74 \, \text{cm}^{-1} \]

转换为波长:

\[ \lambda_{\text{Stokes}} = \frac{1}{\tilde{\nu}_{\text{Stokes}}} = \frac{1}{37516.74} \, \text{cm} = 2.665 \times 10^{-5} \, \text{cm} = 266.50 \, \text{nm} \]

#### 4. 验证计算
使用已知的振动波数1903.68 cm⁻¹计算的斯托克斯波长为266.50 nm。这与实验值接近,可以接受。

#### 5. 考虑非谐性
严格来说,需要考虑振动的非谐性,但题目未提供相关信息,因此忽略非谐性修正。

### 最终答案

```json
{
  "answers": [
    "266.50"
  ]
}
```
  • 在该学科推理计算问题的解答过程中,Gemini-2.5-Pro通过严密的推理逻辑计算得出了正确答案。而Kimi-K2-Instruct在解答该问题时出现误判问题类型、使用错误量纲的问题,最终导致了计算错误。

指令跟随

问题:

你是一位地质工程领域的研究专家,论文题目是'基于地球物理方法在四川省天然气田勘探中的应用',要求服务于实际应用,有具体案例分析和实践指导。请设计论文的框架,列出3到5个关键字,并将主体部分划分为6个章节,提供每个章节的标题。

Checklist:
回答是否清晰地提供了论文的整体框架结构?
是否列出了与论文主题密切相关的3到5个关键字,并且这些关键词确实能够概括论文的核心内容?
论文中每个章节的标题是否具有逻辑性,是否能够完整体现论文的主线和内容深度?
是否考虑了实际应用的需求,特别是在四川省天然气田的地球物理勘探中的具体案例和实践指导方面?
论文框架是否全面覆盖了地球物理方法在天然气田勘探中的理论、技术、案例分析及实践指导的应用?

Doubao-Seed-1.6-thinking-250715回复(Thinking过程略):

### 论文框架设计

#### **一、论文题目**  
基于地球物理方法在四川省天然气田勘探中的应用——实践案例与技术指导  
#### **二、关键字**  
**地球物理方法;四川天然气田;勘探应用;储层预测;实践指导**(注:覆盖“方法-区域-目标-核心环节-应用价值”五大维度,贴合服务实际的需求)  
#### **三、主体章节设计(6章)**  
章节逻辑遵循“**背景铺垫→地质基础→方法原理→关键应用→案例验证→实践指导**”的技术路线,聚焦“实用性”与“可操作性”。

### **第1章 绪论**  
**核心目标**:说明研究的现实意义与技术定位,明确“服务四川天然气勘探实践”的研究导向。  
**内容要点**:  
1. 研究背景:  
   - 四川天然气资源禀赋(如:全国页岩气产量占比超60%、常规气藏储量居全国前列);  
   - 国家“双碳”目标下,四川作为天然气主产区的战略地位;  
   - 地球物理方法在天然气勘探中的不可替代性(解决“看不见、测不准”的地下问题)。  
2. 国内外研究现状:  
   - 地球物理方法在天然气勘探中的技术进展(如三维地震、叠前反演、AI辅助解释);  
   - 四川天然气勘探中地球物理应用的痛点(如高陡构造成像难、页岩气储层参数定量预测精度低)。  
3. 研究目标与内容:  
   - 目标:构建“地质-地球物理”协同的四川天然气勘探技术体系,提供可复制的实践指导;  
   - 内容:地质背景解析→方法原理适配→关键环节实践→典型案例验证→策略优化。  

### **第2章 四川省天然气田地质背景与勘探需求**  
**核心目标**:为地球物理方法的“针对性应用”奠定地质基础(避免“方法万能论”)。  
**内容要点**:  
1. 区域构造特征:  
   - 四川盆地构造单元划分(如川东高陡褶皱带、川南低褶带、川西坳陷、川中隆起);  
   - 关键构造对天然气成藏的控制(如断层作为运移通道、背斜作为圈闭)。  
2. 地层与储层特征:  
   - 主力含气地层(如震旦系灯影组、寒武系龙王庙组、志留系龙马溪组、二叠系长兴组);  
   - 不同类型储层的地质属性(常规气藏:碳酸盐岩孔隙-裂缝型;页岩气:泥页岩脆性-有机质型;深层气:低孔低渗碎屑岩)。  
3. 勘探关键需求:  
   - 常规气藏:高精度构造圈闭识别;  
   - 页岩气:储层厚度、脆性指数、含气性定量预测;  
   - 深层气:深层地层成像与小尺度孔隙检测。  

### **第3章 天然气勘探中的地球物理方法原理与技术体系**  
**核心目标**:明确“哪些方法适合四川天然气勘探”及“方法的适用场景”,避免技术滥用。  
**内容要点**:  
1. 主力地球物理方法原理:  
   - **地震勘探**(三维反射地震、叠前深度偏移):解决构造成像与储层横向展布问题;  
   - **重力/磁力勘探**:识别基底构造与断裂带(如川中隆起的基底起伏);  
   - **电法勘探**(MT/CSAMT):检测页岩气储层含水性(低阻异常指示水层);  
   - **测井技术**(电阻率、声波、密度测井):定量计算储层孔隙度、渗透率、TOC(总有机碳)。  
2. 四川针对性技术体系:  
   - “地震+测井”联合反演(解决储层参数纵向精度问题);  
   - “重力+磁力+地震”多源数据融合(解决高陡构造的三维空间定位);  
   - 页岩气“甜点”预测技术链(地震属性→测井约束→脆性指数→含气性)。  

### **第4章 四川天然气田勘探的关键地球物理应用环节**  
**核心目标**:聚焦“从数据到储量”的关键步骤,提供“可操作的技术流程”。  
**内容要点**:  
1. 构造圈闭精细解释:  
   - 技术流程:层位标定→断层识别→构造建模(以川东高陡褶皱带为例,解决“构造倒转”成像难题);  
   - 关键技术:三维地震叠前深度偏移(提高高陡地层的成像精度)。  
2. 储层参数定量预测:  
   - 常规气藏(如普光气田):波阻抗反演→孔隙度计算→储层厚度 mapping;  
   - 页岩气(如威远气田):地震属性(连续性、频率)→TOC预测→脆性指数(石英+长石含量)计算。  
3. 含气性检测:  
   - 常规气藏:AVO(振幅随偏移距变化)分析(“亮点”异常指示气层);  
   - 页岩气:叠前弹性反演→含气饱和度计算(“暗点”异常指示优质页岩)。  

### **第5章 四川省天然气田勘探典型案例分析**  
**核心目标**:用“实际项目数据”验证方法有效性,增强论文的“实践说服力”。  
**内容要点**(选取四川3类典型气藏,覆盖常规、页岩、深层):  
1. **案例1:普光气田(海相碳酸盐岩常规气藏)**  
   - 问题:川东高陡构造成像模糊,储层边界不清;  
   - 方法:三维地震叠前深度偏移+测井约束反演;  
   - 结果:构造圈闭精度提高30%,储层孔隙度预测误差<5%,钻探成功率从65%提升至82%。  
2. **案例2:威远气田(志留系龙马溪组页岩气)**  
   - 问题:页岩“甜点”(高TOC、高脆性、高含气)识别难;  
   - 方法:地震属性分析+测井脆性指数计算+叠前含气性反演;  
   - 结果:水平井靶区命中率从50%提升至75%,单井产量增加20%。  
3. **案例3:安岳气田(震旦系灯影组深层气藏)**  
   - 问题:深层(>4500m)地层成像差,小尺度孔隙检测难;  
   - 方法:高分辨率地震采集+重力磁力联合反演+测井孔隙度标定;  
   - 结果:发现灯影组大型礁滩体储层,探明储量超1000亿方。  

### **第6章 四川天然气田勘探的实践指导与未来展望**  
**核心目标**:总结“可复制的经验”,为企业提供“技术决策依据”。  
**内容要点**:  
1. 不同类型气藏的地球物理勘探策略:  
   - **常规气藏**:优先三维地震(构造解释)+测井(储层评价);  
   - **页岩气**:重点地震属性(厚度)+测井(脆性)+叠前反演(含气性);  
   - **深层气**:高分辨率地震(成像)+多方法联合反演(储层)。  
2. 技术优化建议:  
   - 高陡构造区:优化地震采集参数(如小偏移距、高密度检波器);  
   - 页岩气区:推广“井中地震+地面地震”联合(提高纵向分辨率)。  
3. 未来技术方向:  
   - AI辅助地震解释(如断层自动识别、储层甜点智能预测);  
   - 新型地球物理设备(如量子重力仪、分布式光纤传感);  
   - 多源数据融合平台(地质-地球物理-工程数据一体化)。  

### **四、论文创新点**  
1. **区域针对性**:聚焦四川特殊地质条件(高陡构造、多类型储层),避免“通用方法”的生搬硬套;  
2. **实践导向性**:以“解决实际勘探问题”为核心,通过案例验证技术有效性;  
3. **策略可操作性**:总结“分类型、分环节”的勘探策略,直接服务企业技术决策。  

此框架既覆盖地球物理方法的原理,又紧扣四川天然气勘探的实际需求,通过“案例-策略”的闭环设计,实现“理论指导实践”的研究目标。

o4-mini-high-2025-04-16回复:

关键字:  
1. 地球物理勘探  
2. 天然气田  
3. 四川省  
4. 多参数综合解释  
5. 工程实践指导  

论文主体(6 章)  
第一章 引言  
第二章 四川盆地区域地质与天然气资源概况  
第三章 主要地球物理方法原理与特点  
第四章 四川省典型天然气田地球物理勘探案例分析  
第五章 数据处理、综合解释及模型构建  
第六章 结论与工程实践指导建议
  • Doubao-Seed-1.6-thinking-250715模型的回复表现出高度系统性的框架设计和内容组织,在案例列举、实践指导、知识面覆盖、实际应用需求的考量等多方面上均表现出色,良好地体现出了论文的主线和内容深度,十分贴合Checklist中的具体要求。
  • 相比之下,o4-mini-high-2025-04-16的回复则较为精简。虽然其回复内容中也提供了整体框架、关键字等信息,基本满足了Checklist的标准,但没有从标题中向内深挖,以更加贴合Checklist中对于案例、应用、深度等方面的要求。

注意事项

  1. 大语言模型官方自建榜评测榜单每三月更新一次
  2. 新模型厂商若想参与该月榜单评测,可在当月25日前发送邮件至opencompass@pjlab.org.cn申请评测申请加入司南OpenCompass月度评测榜单;
  3. 加入司南OpenCompass评测的结果默认公开;
  4. 仅支持开源或对外提供API服务商业化模型(内部迭代研发模型暂不支持评测);
  5. 为了确保公平性,司南通过公开采购的方式获取了商业API服务,其中包括使用硅基流动等服务商API。然而,由于部分API的稳定性问题或敏感词过滤机制,可能会导致某些问题无法获得答案,特此进行说明。

了解更多

最新大语言模型评测榜单已同步上线至司南官网,欢迎大家访问查看更详细的评测数据!

https://rank.opencompass.org.cn/

同时,司南评测体系中大模型评测过程中所用到的工具链均在GitHub开源,诚挚邀请您在学术研究或产品研发过程中使用我们的工具~

https://github.com/open-compass/

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值