AI终极对决｜2025大模型高考榜单揭晓，百度95.8分碾压国际巨头，GPT-4o理科溃败！

原创于 2025-06-09 16:36:57 发布 · 906 阅读

·

9

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#人工智能 #高考 #AI大模型评测 #AI大模型高考实测 #大模型高考排行榜 #大模型行业应用评测 #AI大模型

AI大模型「高考专题」评测榜单说明

【评测目标】以评促优、以评促用、以评促享
【评测模型】国内外主流大模型，累计119个（文末附大模型高考成绩单）
【评测集】高考历年真题、2025最新模拟题等最新题集，低污染度，大模型“闭卷”考试实评；
【评测方式】官方API
【更多评测资讯】https://nonelinear.com

以下是评测关键发现

一、国内外模型对决：国产总分碾压，海外理科险胜

1. 总分与文理科对比（TOP5代表模型）

关键结论：

✅ 国产文科统治力：文心4.5文科均分97.3（历史96/政治100），超Gemini 14分！

⚠️ 海外理科壁垒：Gemini理科96.7分（生物/化学双满分），唯一压制国产的领域。

💥 GPT全线崩盘：GPT-4o理科最高仅物理69分（未进前50），总分比文心低31.3分。

二、开源vs商用对决：商用仍占优，开源黑马崛起

1. 开源与商用模型能力对比

2. 典型案例：

开源之光
DeepSeek-R1总分88.8（开源第1，总榜第5），文科超GPT-4o 27分！
商用壁垒
文心4.5理科94.3分，比最强开源模型（Qwen3-235B）高7.8分。

3. 结论：

商用模型在理科精度和高分段统治上优势显著，但开源模型（如DeepSeek、Qwen）正快速逼近头部商用水平。

三、参数量生死线：千亿级霸榜，小模型理科崩盘

1. 参数量与得分关系（按模型规模分组）

残酷真相：

理科算力霸权
千亿模型物理均分82.6，70亿级仅38.3分（相差54%）
小模型死刑区
参数量<10亿的模型，物理及格率不足5%（仅2款超60分）
开源小模型灾难
Qwen3-0.6B（0.6B）物理仅23.3分，比千亿模型低71分！

四、评测小结

国产模型赢麻了
文科TOP5国产占4席，理科仅化学失守——中文场景已成国产护城河。
开源逼近临界点
DeepSeek-R1总分超GPT-4o 24分，开源模型首次威胁商用头部阵营。
参数量的铁律
当物理题需要空间推理时，70亿参数=不及格（行业部署需谨慎！）。

大模型还存在着诸多缺陷，但整体能力是越来越强的，这可能会引发“被替代”等各个层面的焦虑，但创造力是人类的独特优势。我们不必跑赢AI，只需抵达机器永远到不了的远方。

今天高考，小编祝所有考生，都能超常发挥，金榜题名。

- 如需要看更多关于本次高考评测的更多数据内容，请后台私信：
  
  ① 后台私信“高考”获取119个大模型成绩单；
  
  ② 后台私信/评论获取教育最新评测集、badcase；

关于大模型评测NoneLinear：https://nonelinear.com

最全——全球最全大模型评测平台，已囊括200+大模型、300+评测维度
最新——每周更新大模型排行榜
最方便——无需注册/梯子，国内外各个大模型可一键评测
结果可见——所有大模型评测的方法、题集、过程、得分结果，可见可追溯
错题本——百万级大模型缺陷库
免费——为您的私有模型提供免费的全方位评测服务，欢迎私信

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。