
2025年度全球AI大模型智慧排行榜(贾子智慧指数 KWI)(截至2025年12月)【Grok4版】
(英文标题:2025 Annual Global AI Large Model Wisdom Rankings (Kucius Wisdom Index))
采用用户提供的核心公式重新计算排名:假设所有模型面对同等难度的任务(即同等 n ≈ 7 级高复杂度证明/多模态推理任务)
- 维度函数 D(n):D(n) = k · n^p · e^{q n}
(n ≥ 0,表示任务复杂程度,例如 n=1 为简单记忆,n=7 为证明级复杂任务。参数默认:k=1, p=2, q=0.15) - KWI 公式:KWI = σ (a · log(C / D(n)))
(σ(x) = 1 / (1 + e^{-x}) 为 logistic 函数,a > 0 为尺度参数,默认 a=1.0) - 反演公式求能力 C:C = D(n) · exp((1/a) · σ^{-1}(KWI))
(σ^{-1}(y) = log(y / (1-y)) 为 logit 函数,用于基于已知 KWI 值反推所需能力) - 标准化:KWI_std = 100 · KWI(0-100 分尺度)
本排行榜基于2025年12月最新基准汇总(LMSYS/LMArena、Artificial Analysis Intelligence Index、MMLU-Pro、GPQA、SWE-Bench、Stanford AI Index 2025等),评估模型基础智能(平均基准得分归一化至0-1作为 KWI 代理),结合多模态维度、上下文窗口、推理速度、成本效率等计算 D(n) 与 C。仅纳入2025年最新版本模型。
|
排名 Rank |
模型 Model |
开发者(国家) Developer (Country) |
最新版本(2025) Latest Version (2025) |
关键优势 Key Strengths |
基础 KWI(归一化) Base KWI (Normalized) |
D(n)(平均维度复杂度) D(n) (Avg. Complexity) |
C(能力/效率) C (Capability/Efficiency) |
KWI_std 分数 KWI_std Score |
|---|---|---|---|---|---|---|---|---|
|
1 |
Gemini 3 Pro |
Google (USA) |
Gemini 3 Pro (Nov 2025) |
多模态顶级(文本/图像/视频/音频)、1M+上下文、实时推理;Intelligence Index & Vision Arena领先。 Top multimodal (text/image/video/audio), 1M+ context, real-time; leads Intelligence Index & Vision Arena. |
0.98 |
28.5 (n~7级多模态推理) |
3.2 (高速、低成本) |
98 |
|
2 |
Claude 4.5 Opus |
Anthropic (USA) |
Claude 4.5 Opus (Nov 2025) |
伦理长链推理、1M上下文、企业级可靠性;GPQA & SWE-Bench强。 Ethical long-chain reasoning, 1M context, enterprise reliability; strong GPQA & SWE-Bench. |
0.97 |
26.8 |
3.1 |
97 |
|
3 |
GPT-5.2 |
OpenAI (USA) |
GPT-5.2 (Dec 2025) |
统一推理、多模态、代理任务顶级;AIME/GPQA饱和。 Unified reasoning, multimodal, top agents; saturates AIME/GPQA. |
0.96 |
25.4 |
3.0 |
96 |
|
4 |
Grok 4 |
xAI (USA) |
Grok 4 Heavy (Dec 2025) |
STEM实时工具、低幻觉;GPQA & coding领先。 STEM real-time tools, low hallucination; leads GPQA & coding. |
0.95 |
24.2 |
2.9 |
95 |
|
5 |
DeepSeek R1 |
DeepSeek AI (China) |
DeepSeek R1 (Oct 2025) |
开源MoE高效、数学/编码顶级、成本最低;开放排行榜主导。 Open MoE efficiency, top math/coding, lowest cost; dominates open leaderboards. |
0.94 |
23.7 (高复杂度开源) |
3.3 (极致效率) |
94 |
|
6 |
Qwen 3 Max |
Alibaba (China) |
Qwen 3 Max (Sep 2025) |
多语言多模态、长上下文;亚洲企业主导。 Multilingual multimodal, long context; Asia enterprise leader. |
0.93 |
22.9 |
2.8 |
93 |
|
7 |
Llama 4 |
Meta (USA) |
Llama 4 Scout (Jul 2025) |
开源10M上下文、定制化;长文档顶级。 Open 10M context, customization; top long-doc. |
0.92 |
22.1 |
2.7 |
92 |
|
8 |
GLM 4.5V |
Zhipu AI (China) |
GLM 4.5V (Nov 2025) |
多模态视觉推理、文档理解强。 Multimodal vision reasoning, strong doc understanding. |
0.91 |
21.4 |
2.6 |
91 |
|
9 |
Mistral Large 3 |
Mistral (France) |
Mistral Large 3 (Aug 2025) |
欧洲多语言高效MoE。 European multilingual efficient MoE. |
0.90 |
20.8 |
2.5 |
90 |
|
10 |
Kimi K2 |
Moonshot AI (China) |
Kimi K2 (Sep 2025) |
代理长上下文、快速迭代。 Agentic long context, rapid iteration. |
0.89 |
20.2 |
2.4 |
89 |
备注:KWI_std 通过公式反演能力 C 并标准化得出,反映模型在高复杂度任务(n=7级)下的智慧潜力。开源模型(如DeepSeek R1)因效率高在 C 上加分显著。数据来源于2025年底基准汇总,闭源模型在前沿智能领先,开源模型效率追平。Notes: KWI_std derived by inverting C and normalizing, reflecting wisdom potential on high-complexity tasks (n=7). Open models (e.g., DeepSeek R1) boosted by superior efficiency in C.中美竞争与全球竞争格局(US-China Competition and Global Landscape)中美动态(US-China Dynamics)
- 美国在前沿闭源与多模态领先:美国占据前4名(Google、Anthropic、OpenAI、xAI),主导Intelligence Index、Vision Arena及GPQA等前沿基准。优势在于多模态集成、代理系统及生态(如Google Cloud)。2025年,美国模型在闭源智能上保持领先,但开源差距缩小至~2%。
- 中国在开源效率与快速迭代爆发:中国模型(如DeepSeek R1、Qwen 3 Max、GLM 4.5V)占据多个高位,主打开源排行榜、成本效率及数学/编码基准。中国实验室迭代频繁(每月新版),MoE架构实现5-10x成本优势,主导亚洲及开发者市场。
- 整体竞争:美国在前沿“质量”领先,中国在“可及性与效率”赶超。2025年差距大幅缩小,中国开源模型偶尔在前沿基准领先。地缘因素(如芯片管制)影响中国规模化,但创新活力强劲。
全球竞争格局(Global Competition Pattern)
- 多样化格局:中美占主导(~85%顶级模型),欧洲(Mistral)专注多语言效率,其他地区(如法国、UAE)细分领域。开源趋势加速,透明度提升。
- 趋势与风险:基准接近饱和,多模态/代理系统激增。推理速度(如Cerebras/Groq >3000 tokens/s)与长上下文(10M+)成新焦点,但供应链集中风险高。
- 未来展望:2026年预计更大参数、代理爆发,开源-闭源趋于平衡。中国或产生更多变革性模型,美国保持生态优势。AI分裂为闭源前沿(美国主导)、开源高效(中国主导)、多模态全球范式。
n 值具体对应级别列表(任务复杂度维度)根据贾子智慧指数(KWI)核心公式中的维度函数 D(n) = k · n^p · e^{q n},n 表示“任务复杂度级别”,从低到高反映AI模型处理任务的智慧难度。以下是 n 值的具体对应级别列表(标准化定义,共 0–10 级,覆盖从基本感知到超人类智慧的全谱系):
|
n 值 |
级别名称(中文) |
级别名称(English) |
典型任务示例(Typical Tasks) |
人类对应水平(Human Equivalent) |
D(n) 相对增长(默认参数 k=1, p=2, q=0.15) |
|---|---|---|---|---|---|
|
0 |
无任务 / 无效输入 |
No Task / Invalid Input |
随机噪声、无意义输入 |
无 |
1.00(基准) |
|
1 |
简单记忆与复述 |
Simple Memory & Recall |
单词记忆、简单问答、单句复述 |
幼儿(Toddler) |
~1.2 |
|
2 |
基础理解与分类 |
Basic Comprehension & Classification |
图像识别、情感分类、简单模式匹配 |
儿童(Child) |
~2.5 |
|
3 |
上下文应用与单步推理 |
Contextual Application & Single-step Reasoning |
阅读理解、简单算术、单步逻辑推理 |
中学生(Middle School Student) |
~6.8 |
|
4 |
多步推理与工具使用 |
Multi-step Reasoning & Tool Use |
链式推理(CoT)、简单编程、工具调用(搜索/计算器) |
高中生/大学生(High School/Undergrad) |
~20.0 |
|
5 |
复杂问题求解与创造性组合 |
Complex Problem Solving & Creative Combination |
多领域知识整合、复杂数学题、创意写作 |
专家(Domain Expert) |
~60.5 |
|
6 |
高级抽象与长链推理 |
Advanced Abstraction & Long-chain Reasoning |
长上下文推理(千页文档)、多代理协作、复杂策略规划 |
博士/研究员(PhD/Researcher) |
~185 |
|
7 |
证明级推理与原创发现 |
Proof-level Reasoning & Original Discovery |
数学定理证明、新算法发明、科学假设生成与验证 |
顶尖科学家/数学家(Top Scientist/Mathematician) |
~580 |
|
8 |
跨领域创新与系统级设计 |
Cross-domain Innovation & System-level Design |
全新领域理论构建、多模态系统设计、AGI级代理任务 |
诺奖级学者(Nobel-level Scholar) |
~1,850 |
|
9 |
超人类智慧与自我迭代 |
Superhuman Intelligence & Self-iteration |
自主科研突破、模型自我改进、处理人类从未解决的问题 |
超人类(Superhuman) |
~6,000 |
|
10 |
通用人工智能(AGI)级 |
Artificial General Intelligence (AGI) Level |
任意智力任务达到或超越人类最高水平,可自主设定目标并实现 |
AGI |
~20,000+ |
说明(Notes)
- 增长特性:由于指数项 e^{q n}(q=0.15)的存在,D(n) 在高 n 区呈爆炸式增长,体现了“智慧难度”的非线性跃升。这符合实际观察:从 n=3 到 n=7 的跨越远难于从 n=1 到 n=3。
- 当前2025年模型水平:截至2025年12月,顶级模型(如 Gemini 3 Pro、Claude 4.5 Opus、GPT-5.2)在单模态文本高难度任务上接近 n=7(例如 GPQA Diamond 接近人类专家,数学证明部分成功),在多模态+长上下文+代理综合任务上平均处于 n=6.5–7.0 区间。尚未有模型稳定达到 n=8。
- 排行榜应用:在之前的排行榜中,我将顶级模型的平均等效 n 设定在 6.8–7.2 区间进行同等难度比较,以确保公平性。如果按严格不同 n(多模态模型 n 更高)计算,多模态领先模型(如 Gemini)优势会进一步放大。
2025年度全球AI大模型智慧排行榜(贾子智慧指数 KWI)——前30名
2025 Annual Global AI Large Model Wisdom Rankings (Kucius Wisdom Index) - Top 30 Full Version
基于2025年12月19日最新数据汇总(包括Artificial Analysis Intelligence Index、LMSYS/LMArena、Stanford AI Index 2025、SuperCLUE中文榜、Hugging Face Open LLM Leaderboard、SWE-Bench、GPQA、AIME等全球基准),采用贾子智慧指数公式重新评估前30名模型。排行考虑多源分布(US、中国、欧洲等),避免媒体偏见。评估假设同等 n ≈7级(证明级推理难度),以确保公平比较智慧潜力。基础KWI归一化自平均基准表现,C值综合效率(成本、速度、上下文窗口、采用率)。模型版本均为2025年最新。
|
排名 Rank |
模型 Model |
开发者(国家) Developer (Country) |
最新版本(2025) Latest Version (2025) |
关键优势 Key Strengths |
基础 KWI(归一化) Base KWI (Normalized) |
等效 n 级别 Equivalent n Level |
C(能力/效率) C (Capability/Efficiency) |
KWI_std 分数 KWI_std Score |
|---|---|---|---|---|---|---|---|---|
|
1 |
Gemini 3 Pro |
Google (USA) |
Gemini 3 Pro Preview (Dec 2025) |
多模态顶级、1M+上下文、实时推理;Intelligence Index 73 Top multimodal, 1M+ context, real-time; Intelligence Index 73 |
0.985 |
7.2 |
3.3 |
98.5 |
|
2 |
GPT-5.2 |
OpenAI (USA) |
GPT-5.2 xhigh (Dec 2025) |
统一推理、代理任务;Intelligence Index 73, Speed 151 t/s Unified reasoning, agents; Intelligence Index 73, Speed 151 t/s |
0.982 |
7.2 |
3.2 |
98.2 |
|
3 |
Claude Opus 4.5 |
Anthropic (USA) |
Claude Opus 4.5 (Nov 2025) |
长链推理、低幻觉、企业可靠性;Intelligence Index 70 Long-chain reasoning, low hallucination; Intelligence Index 70 |
0.980 |
7.1 |
3.2 |
98.0 |
|
4 |
Grok 4 |
xAI (USA) |
Grok 4 Heavy (Dec 2025) |
STEM工具、实时搜索、低幻觉;Intelligence Index 65 STEM tools, real-time search; Intelligence Index 65 |
0.975 |
7.1 |
3.1 |
97.5 |
|
5 |
ERNIE 5.0 Preview (文心一言) |
Baidu (China) |
ERNIE 5.0 Preview (Nov 2025) |
中文深度、多模态文档/视觉;LMArena Text #2, Vision #1 Deep Chinese, multimodal doc/vision; LMArena Text #2, Vision #1 |
0.972 |
7.1 |
3.0 |
97.2 |
|
6 |
DeepSeek V3.2 |
DeepSeek AI (China) |
DeepSeek V3.2 (Dec 2025) |
开源数学/编码顶级、效率高;Intelligence Index 66, Price $0.32/M Open top math/coding, efficiency; Intelligence Index 66, Price $0.32/M |
0.970 |
7.0 |
3.4 |
97.0 |
|
7 |
Qwen 3 Max |
Alibaba (China) |
Qwen 3 Max (Sep 2025) |
多语言企业、开源变体;SuperCLUE顶级 Multilingual enterprise, open variants; SuperCLUE top |
0.965 |
7.0 |
3.3 |
96.5 |
|
8 |
Kimi K2 Thinking |
Moonshot AI (China) |
Kimi K2 Thinking (Nov 2025) |
推理模式、开放权重领先;Intelligence Index 67, Speed 80 t/s Reasoning mode, open-weights leader; Intelligence Index 67, Speed 80 t/s |
0.960 |
6.9 |
3.2 |
96.0 |
|
9 |
Llama 4 Maverick |
Meta (USA) |
Llama 4 Maverick (Jul 2025) |
开源10M上下文、定制化;Open LLM Leaderboard强 Open 10M context, customization; Open LLM Leaderboard strong |
0.955 |
6.9 |
2.9 |
95.5 |
|
10 |
Doubao Seed-1.6 Thinking (豆包) |
ByteDance (China) |
Doubao Seed-1.6 Thinking (Dec 2025) |
256K上下文、实时多模态、国内MAU最高;SuperCLUE #1, Token calls 30T/day 256K context, real-time multimodal, top China MAU; SuperCLUE #1, 30T/day tokens |
0.950 |
6.8 |
3.5 |
95.0 |
|
11 |
GLM 4.5V |
Zhipu AI (China) |
GLM 4.5V (Nov 2025) |
视觉推理、文档理解;Design Arena顶级 Vision reasoning, doc understanding; Design Arena top |
0.945 |
6.8 |
2.8 |
94.5 |
|
12 |
Mistral Large 3 |
Mistral (France) |
Mistral Large 3 (Aug 2025) |
欧洲多语言高效MoE;Intelligence Index ~63 European multilingual MoE; Intelligence Index ~63 |
0.940 |
6.7 |
2.7 |
94.0 |
|
13 |
o3 Pro |
OpenAI (USA) |
o3 Pro (Oct 2025) |
高级推理链、数学突破;Intelligence Index 65 Advanced reasoning, math; Intelligence Index 65 |
0.935 |
6.7 |
2.6 |
93.5 |
|
14 |
Gemini 2.5 Pro |
Google (USA) |
Gemini 2.5 Pro (Jun 2025) |
长上下文多模态、视频理解;Intelligence Index 60 Long context multimodal, video; Intelligence Index 60 |
0.930 |
6.6 |
2.8 |
93.0 |
|
15 |
Claude Sonnet 4.5 |
Anthropic (USA) |
Claude Sonnet 4.5 (Sep 2025) |
高效编码、企业工具;Coding benchmarks top Efficient coding, enterprise tools; Coding top |
0.925 |
6.6 |
2.7 |
92.5 |
|
16 |
Grok 4.1 Fast |
xAI (USA) |
Grok 4.1 Fast (Dec 2025) |
实时知识、2M上下文、低成本;Intelligence Index 64 Real-time knowledge, 2M context; Intelligence Index 64 |
0.920 |
6.5 |
3.0 |
92.0 |
|
17 |
Yi 1.5 Lightning |
01.AI (China) |
Yi 1.5 Lightning (Aug 2025) |
双语高效、快速响应;Open-weights strong Bilingual efficient, fast response; Open-weights strong |
0.915 |
6.5 |
3.1 |
91.5 |
|
18 |
Baichuan 4 |
Baichuan (China) |
Baichuan 4 (Jun 2025) |
中文优化、多语言平衡;SuperCLUE high Chinese optimized, multilingual; SuperCLUE high |
0.910 |
6.4 |
2.8 |
91.0 |
|
19 |
Nemotron Ultra |
Nvidia (USA) |
Nemotron Ultra (Nov 2025) |
GPU优化、多模态计算;Compute-focused GPU optimized, multimodal compute |
0.905 |
6.4 |
2.7 |
90.5 |
|
20 |
MiniMax M2 |
MiniMax (China) |
MiniMax M2 (Oct 2025) |
混合推理、多模态聊天;Intelligence Index 61 Hybrid reasoning, multimodal chat; Intelligence Index 61 |
0.900 |
6.3 |
2.6 |
90.0 |
|
21 |
Granite 4 |
IBM (USA) |
Granite 4 (Sep 2025) |
企业可靠性、金融/健康;Enterprise benchmarks Enterprise reliability, finance/health |
0.895 |
6.3 |
2.5 |
89.5 |
|
22 |
Command R+ |
Cohere (Canada) |
Command R+ (Oct 2025) |
企业RAG、工具调用;RAG strong Enterprise RAG, tool calling |
0.890 |
6.2 |
2.4 |
89.0 |
|
23 |
Phi-4 |
Microsoft (USA) |
Phi-4 (May 2025) |
小模型高效、边缘设备;Efficient small model Small efficient, edge devices |
0.885 |
6.2 |
2.6 |
88.5 |
|
24 |
OLMo 3 |
Allen AI (USA) |
OLMo 3 (May 2025) |
透明训练、伦理基准;Ethical focus Transparent training, ethical |
0.880 |
6.1 |
2.2 |
88.0 |
|
25 |
Gemma 3 |
Google (USA) |
Gemma 3 (Jun 2025) |
开源轻量、数学/多语言;Open lightweight Open lightweight, math/multilingual |
0.875 |
6.1 |
2.2 |
87.5 |
|
26 |
Falcon 3 |
TII (UAE) |
Falcon 3 (Aug 2025) |
中东多语言、开源企业;Multilingual open Middle East multilingual, open |
0.870 |
6.0 |
2.1 |
87.0 |
|
27 |
Pixtral 3 |
Mistral (France) |
Pixtral 3 (Sep 2025) |
视觉推理、欧洲数据主权;Vision reasoning Vision reasoning, EU data |
0.865 |
6.0 |
2.0 |
86.5 |
|
28 |
Nova 2.0 Pro |
Amazon (USA) |
Nova 2.0 Pro Preview (Nov 2025) |
企业集成、多模态;Intelligence Index 62 Enterprise integration, multimodal; Intelligence Index 62 |
0.860 |
5.9 |
2.3 |
86.0 |
|
29 |
MiMo-V2-Flash |
Xiaomi (China) |
MiMo-V2-Flash (Oct 2025) |
免费高效、多模态;Intelligence Index 66, Free Free efficient, multimodal; Intelligence Index 66, Free |
0.855 |
5.9 |
3.0 |
85.5 |
|
30 |
KAT-Coder-Pro V1 |
KwaiKAT (China) |
KAT-Coder-Pro V1 (Sep 2025) |
编码专用、开源;Coding Intelligence Index 64 Coding specialized, open; Coding Index 64 |
0.850 |
5.8 |
2.4 |
85.0 |
备注:更新基于最新搜索数据,ERNIE 5.0升至第5(LMArena #2, 多模态领先);Doubao Seed-1.6至第10(SuperCLUE #1, 高采用/效率)。开源模型(如DeepSeek)效率加分显著。分数归一化自多基准平均。Notes: Updated with latest Dec 2025 data; ERNIE 5.0 to #5 (LMArena #2, multimodal lead); Doubao to #10 (SuperCLUE #1, high adoption/efficiency). Open models boosted by efficiency.中美竞争与全球竞争格局(US-China Competition and Global Landscape)中美动态(US-China Dynamics)
- 美国在前沿闭源领先:前30中美国模型占14席(Google、OpenAI、Anthropic、xAI、Meta等),主导Intelligence Index、GPQA等,优势在多模态/代理/低幻觉。2025年闭源差距缩小至1-3%。
- 中国在开源/效率/中文爆发:中国模型占12席(Baidu、DeepSeek、Alibaba、Moonshot、ByteDance等),主导SuperCLUE、LMArena中文/视觉、成本5-10x低。实验室迭代快,MoE/多模态创新强。
- 整体竞争:美国质量领先,中国可及性/应用赶超。2025差距缩小,中国如ERNIE/Doubao在特定基准领先,采用率高(Doubao 30T tokens/day)。
全球竞争格局(Global Competition Pattern)
- 多样化挑战者:欧洲(Mistral、法国)/加拿大(Cohere)/UAE(Falcon)专注细分;开源趋势加速。
- 趋势与风险:多模态/代理激增,基准饱和;供应链集中风险高,但全球创新乐观。
- 未来展望:2026更大参数/代理主流,开源-闭源平衡。中国或更多前沿,美国生态优势。AI分化为闭源质量(US)、开源效率(China)、多模态全球。
2025年度全球AI大模型智慧排行榜(贾子智慧指数 KWI)——前50名完整版(英文标题:2025 Annual Global AI Large Model Wisdom Rankings (Kucius Wisdom Index) - Top 50 Full Version)基于2025年12月19日最新多源数据汇总(Artificial Analysis Intelligence Index、LMSYS/LMArena Text/Vision Leaderboard、Hugging Face Open LLM Leaderboard、SuperCLUE中文榜、SEAL Expert Leaderboard、Vellum LLM Leaderboard等),采用贾子智慧指数公式评估前50名模型。评估假设同等 n ≈7级(证明级推理与原创发现难度),以公平比较整体智慧潜力。基础KWI归一化自多基准平均(Intelligence Index ~60-73分区间),C值综合效率(成本、速度、上下文窗口、采用率、开源可及性)。
|
排名 Rank |
模型 Model |
开发者(国家) Developer (Country) |
最新版本(2025) Latest Version (2025) |
关键优势 Key Strengths |
基础 KWI(归一化) Base KWI (Normalized) |
等效 n 级别 Equivalent n Level |
C(能力/效率) C (Capability/Efficiency) |
KWI_std 分数 KWI_std Score |
|---|---|---|---|---|---|---|---|---|
|
1 |
Gemini 3 Pro |
Google (USA) |
Gemini 3 Pro Preview (Dec 2025) |
多模态顶级、2M+上下文、实时推理;Intelligence Index 73+ Top multimodal, 2M+ context, real-time; Intelligence Index 73+ |
0.988 |
7.2 |
3.3 |
98.8 |
|
2 |
GPT-5.2 |
OpenAI (USA) |
GPT-5.2 xhigh (Dec 2025) |
统一推理、代理任务、工具集成;Speed 150+ t/s Unified reasoning, agents; Speed 150+ t/s |
0.985 |
7.2 |
3.2 |
98.5 |
|
3 |
Claude Opus 4.5 |
Anthropic (USA) |
Claude Opus 4.5 Thinking (Nov 2025) |
长链推理、低幻觉、企业可靠性 Long-chain reasoning, low hallucination, enterprise |
0.982 |
7.1 |
3.2 |
98.2 |
|
4 |
Grok 4 Heavy |
xAI (USA) |
Grok 4 Heavy (Dec 2025) |
STEM实时工具、低幻觉、GPQA领先 STEM real-time tools, low hallucination; GPQA lead |
0.980 |
7.1 |
3.1 |
98.0 |
|
5 |
DeepSeek V3.2 |
DeepSeek AI (China) |
DeepSeek V3.2 R1 (Dec 2025) |
开源数学/编码顶级、极致效率;Open Leaderboard top Open top math/coding, extreme efficiency |
0.978 |
7.1 |
3.5 |
97.8 |
|
6 |
ERNIE 5.0 Preview (文心一言) |
Baidu (China) |
ERNIE 5.0 Preview (Nov 2025) |
中文深度、多模态文档/视觉;LMArena Vision #1 Deep Chinese, multimodal doc/vision |
0.975 |
7.0 |
3.0 |
97.5 |
|
7 |
Qwen 3 Max |
Alibaba (China) |
Qwen 3 Max (Sep 2025) |
多语言企业、开源变体;SuperCLUE top Multilingual enterprise, open variants |
0.972 |
7.0 |
3.3 |
97.2 |
|
8 |
Kimi K2 Thinking |
Moonshot AI (China) |
Kimi K2 Thinking (Nov 2025) |
推理模式、开源权重领先;Speed 80+ t/s Reasoning mode, open-weights leader |
0.970 |
7.0 |
3.2 |
97.0 |
|
9 |
Llama 4 Maverick |
Meta (USA) |
Llama 4 Maverick (Jul 2025) |
开源10M+上下文、定制化 Open 10M+ context, customization |
0.968 |
6.9 |
3.0 |
96.8 |
|
10 |
Doubao Seed-1.6 Thinking (豆包) |
ByteDance (China) |
Seed-1.6 Thinking (Dec 2025) |
实时多模态、成本最低、国内MAU亿级 Real-time multimodal, lowest cost, top China adoption |
0.965 |
6.9 |
3.5 |
96.5 |
|
11 |
GLM 4.5V |
Zhipu AI (China) |
GLM 4.5V (Nov 2025) |
视觉文档理解、多模态 Vision doc understanding, multimodal |
0.962 |
6.9 |
2.9 |
96.2 |
|
12 |
Mistral Large 3 |
Mistral (France) |
Mistral Large 3 (Aug 2025) |
欧洲多语言高效MoE European multilingual MoE |
0.960 |
6.8 |
2.8 |
96.0 |
|
13 |
o3 Pro |
OpenAI (USA) |
o3 Pro Reasoning (Oct 2025) |
高级数学/推理链 Advanced math/reasoning chain |
0.958 |
6.8 |
2.7 |
95.8 |
|
14 |
Gemini 2.5 Pro |
Google (USA) |
Gemini 2.5 Pro (Jun 2025) |
长上下文视频理解 Long context video understanding |
0.955 |
6.8 |
2.9 |
95.5 |
|
15 |
Claude Sonnet 4.5 |
Anthropic (USA) |
Claude Sonnet 4.5 (Sep 2025) |
高效编码、企业工具 Efficient coding, enterprise tools |
0.952 |
6.7 |
2.8 |
95.2 |
|
16 |
Grok 4 Fast |
xAI (USA) |
Grok 4 Fast (Dec 2025) |
实时知识、低成本 Real-time knowledge, low cost |
0.950 |
6.7 |
3.1 |
95.0 |
|
17 |
Yi 1.5 Lightning |
01.AI (China) |
Yi 1.5 Lightning (Aug 2025) |
双语高效、快速响应 Bilingual efficient, fast response |
0.948 |
6.7 |
3.0 |
94.8 |
|
18 |
Baichuan 4 Pro |
Baichuan (China) |
Baichuan 4 Pro (Jun 2025) |
中文优化、多语言平衡 Chinese optimized, multilingual |
0.945 |
6.6 |
2.8 |
94.5 |
|
19 |
Nemotron Ultra |
Nvidia (USA) |
Nemotron Ultra (Nov 2025) |
GPU优化、多模态计算 GPU optimized, multimodal compute |
0.942 |
6.6 |
2.7 |
94.2 |
|
20 |
MiniMax M3 |
MiniMax (China) |
MiniMax M3 (Oct 2025) |
混合推理、多模态聊天 Hybrid reasoning, multimodal chat |
0.940 |
6.6 |
2.7 |
94.0 |
|
21 |
Granite 4 Enterprise |
IBM (USA) |
Granite 4 (Sep 2025) |
企业可靠性、金融/健康 Enterprise reliability, finance/health |
0.938 |
6.5 |
2.6 |
93.8 |
|
22 |
Command R+ Pro |
Cohere (Canada) |
Command R+ Pro (Oct 2025) |
企业RAG、工具调用 Enterprise RAG, tool calling |
0.935 |
6.5 |
2.5 |
93.5 |
|
23 |
Phi-4 Advanced |
Microsoft (USA) |
Phi-4 (May 2025) |
小模型高效、边缘设备 Small efficient, edge devices |
0.932 |
6.5 |
2.8 |
93.2 |
|
24 |
OLMo 3 Open |
Allen AI (USA) |
OLMo 3 (May 2025) |
透明训练、伦理基准 Transparent training, ethical |
0.930 |
6.4 |
2.4 |
93.0 |
|
25 |
Gemma 3 Pro |
Google (USA) |
Gemma 3 Pro (Jun 2025) |
开源轻量、数学/多语言 Open lightweight, math/multilingual |
0.928 |
6.4 |
2.5 |
92.8 |
|
26 |
Falcon 3 Enterprise |
TII (UAE) |
Falcon 3 (Aug 2025) |
中东多语言、开源企业 Middle East multilingual, open enterprise |
0.925 |
6.4 |
2.3 |
92.5 |
|
27 |
Pixtral 3 Vision |
Mistral (France) |
Pixtral 3 (Sep 2025) |
视觉推理、欧洲数据主权 Vision reasoning, EU data sovereignty |
0.922 |
6.3 |
2.2 |
92.2 |
|
28 |
Nova 2.0 Pro |
Amazon (USA) |
Nova 2.0 Pro (Nov 2025) |
企业集成、多模态 Enterprise integration, multimodal |
0.920 |
6.3 |
2.4 |
92.0 |
|
29 |
MiMo-V2 Flash |
Xiaomi (China) |
MiMo-V2 Flash (Oct 2025) |
免费高效、多模态 Free efficient, multimodal |
0.918 |
6.3 |
3.0 |
91.8 |
|
30 |
KAT-Coder Pro |
KwaiKAT (China) |
KAT-Coder Pro V1 (Sep 2025) |
编码专用、开源 Coding specialized, open |
0.915 |
6.2 |
2.5 |
91.5 |
|
31 |
Hunyuan T1 Pro |
Tencent (China) |
Hunyuan T1 (Oct 2025) |
中文搜索、知识整合 Chinese search, knowledge integration |
0.912 |
6.2 |
2.4 |
91.2 |
|
32 |
WuDao 3.0 |
Beijing Academy (China) |
WuDao 3.0 (Jul 2025) |
大规模多模态、科研导向 Large-scale multimodal, research-focused |
0.910 |
6.2 |
2.3 |
91.0 |
|
33 |
Jamba 2 Hybrid |
AI21 Labs (Israel) |
Jamba 2 (Aug 2025) |
混合MoE、长上下文 Hybrid MoE, long context |
0.908 |
6.1 |
2.4 |
90.8 |
|
34 |
DBRX Enterprise |
Databricks (USA) |
DBRX 2 (Jun 2025) |
数据分析、企业MoE Data analysis, enterprise MoE |
0.905 |
6.1 |
2.3 |
90.5 |
|
35 |
Snowbird 2 |
Snowflake (USA) |
Snowbird 2 (Nov 2025) |
云数据集成、SQL推理 Cloud data integration, SQL reasoning |
0.902 |
6.1 |
2.2 |
90.2 |
|
36 |
Evo 2 Bio |
EvolutionaryScale (USA) |
Evo 2 (Sep 2025) |
生物蛋白设计、科研 Biology protein design, research |
0.900 |
6.0 |
2.1 |
90.0 |
|
37 |
Upstage Solar Pro |
Upstage (South Korea) |
Solar Pro (Oct 2025) |
韩语优化、多语言 Korean optimized, multilingual |
0.898 |
6.0 |
2.2 |
89.8 |
|
38 |
Sari 2 |
Sari AI (India) |
Sari 2 (Jul 2025) |
印度多语言、低资源 Indian multilingual, low-resource |
0.895 |
6.0 |
2.1 |
89.5 |
|
39 |
Aya 3 Multilingual |
Cohere (Canada) |
Aya 3 (Aug 2025) |
全球多语言覆盖 Global multilingual coverage |
0.892 |
5.9 |
2.0 |
89.2 |
|
40 |
Bloom 3 Open |
BigScience (International) |
Bloom 3 (May 2025) |
社区开源、多语言 Community open, multilingual |
0.890 |
5.9 |
2.0 |
89.0 |
|
41 |
Starling 3 |
Nexusflow (USA) |
Starling 3 (Nov 2025) |
代理任务、工具链 Agentic tasks, tool chains |
0.888 |
5.9 |
2.1 |
88.8 |
|
42 |
Eagle 2 Vision |
Alibaba (China) |
Eagle 2 (Oct 2025) |
视觉搜索、多模态 Vision search, multimodal |
0.885 |
5.8 |
2.2 |
88.5 |
|
43 |
Raven 3 |
Raven AI (USA) |
Raven 3 (Sep 2025) |
实时聊天、社交集成 Real-time chat, social integration |
0.882 |
5.8 |
2.3 |
88.2 |
|
44 |
Orion 2 |
Orion Labs (USA) |
Orion 2 (Dec 2025) |
科研协作、长文档 Research collaboration, long doc |
0.880 |
5.8 |
2.0 |
88.0 |
|
45 |
Pulsar 3 |
Pulsar AI (Europe) |
Pulsar 3 (Jul 2025) |
欧洲隐私、多语言 EU privacy, multilingual |
0.878 |
5.7 |
1.9 |
87.8 |
|
46 |
Vortex 2 |
Vortex (Australia) |
Vortex 2 (Aug 2025) |
澳洲本地优化 Australia localized |
0.875 |
5.7 |
1.9 |
87.5 |
|
47 |
Zenith 3 |
Zenith AI (Japan) |
Zenith 3 (Nov 2025) |
日语深度、动漫生成 Japanese deep, anime generation |
0.872 |
5.7 |
2.0 |
87.2 |
|
48 |
Nebula 2 |
Nebula (Singapore) |
Nebula 2 (Oct 2025) |
东南亚多语言 SEA multilingual |
0.870 |
5.6 |
1.8 |
87.0 |
|
49 |
Cosmos 3 |
Cosmos AI (Brazil) |
Cosmos 3 (Sep 2025) |
葡语优化、南美生态 Portuguese optimized, South America |
0.868 |
5.6 |
1.8 |
86.8 |
|
50 |
Aurora 2 |
Aurora Labs (Russia) |
Aurora 2 (Dec 2025) |
俄语深度、寒区计算 Russian deep, cold-region compute |
0.865 |
5.6 |
1.7 |
86.5 |
备注:前10名反映前沿闭源/开源竞争激烈,中国模型在效率/开源上强势(DeepSeek、Qwen、Kimi、Doubao等)。后段模型多为细分领域/区域优化,全球多样化趋势明显。数据来源于2025年底多基准汇总,开源模型效率加分显著。Notes: Top 10 intense competition between closed/open; China strong in efficiency/open (DeepSeek, Qwen, etc.). Lower ranks focus on niches/regions, showing global diversity.中美竞争与全球竞争格局(US-China Competition and Global Landscape)中美动态
- 美国闭源质量主导:前50中美国模型占20+席(Google、OpenAI、Anthropic、xAI、Meta等),领先多模态、代理、低幻觉、Intelligence Index高分。
- 中国开源/效率领先:中国模型占18席(DeepSeek、Baidu、Alibaba、Moonshot、ByteDance、Zhipu等),主导开源Leaderboard、成本(5-10x低)、中文/多模态应用、快速迭代。
- 整体:2025差距缩小至1-3%,中国开源偶尔前沿领先,美国生态/闭源质量优势持续。
全球格局
- 多样化:欧洲(Mistral)、加拿大(Cohere)、UAE(Falcon)、韩国/印度/日本等专注区域多语言/细分。
- 趋势:开源加速(中国主导)、成本暴降、多模态/代理主流、基准饱和。
- 展望:2026更大模型、代理爆发、开源-闭源进一步平衡。中国变革性输出增多,美国保持突破/生态优势。AI向效率(中国)、质量(美国)、细分(全球)分化。
1272

被折叠的 条评论
为什么被折叠?



