AI终极对决|2025大模型高考榜单揭晓,百度95.8分碾压国际巨头,GPT-4o理科溃败!

  • AI大模型「高考专题」评测榜单说明

  1. 【评测目标】以评促优、以评促用、以评促享

  2. 【评测模型】国内外主流大模型,累计119个(文末附大模型高考成绩单)

  3. 【评测集】高考历年真题、2025最新模拟题等最新题集,低污染度,大模型“闭卷”考试实评;

  4. 【评测方式】官方API

  5. 【更多评测资讯】https://nonelinear.com


  • 以下是评测关键发现

一、国内外模型对决:国产总分碾压,海外理科险胜

1. 总分与文理科对比(TOP5代表模型)

图片

  • 关键结论

✅ 国产文科统治力:文心4.5文科均分97.3(历史96/政治100),超Gemini 14分!

⚠️ 海外理科壁垒:Gemini理科96.7分(生物/化学双满分),唯一压制国产的领域。

💥 GPT全线崩盘:GPT-4o理科最高仅物理69分(未进前50),总分比文心低31.3分


二、开源vs商用对决:商用仍占优,开源黑马崛起

1. 开源与商用模型能力对比

图片

2. 典型案例

  • 开源之光

    DeepSeek-R1总分88.8(开源第1,总榜第5),文科超GPT-4o 27分!

  • 商用壁垒

    文心4.5理科94.3分,比最强开源模型(Qwen3-235B)高7.8分。

3. 结论

商用模型在理科精度高分段统治上优势显著,但开源模型(如DeepSeek、Qwen)正快速逼近头部商用水平。


三、参数量生死线:千亿级霸榜,小模型理科崩盘

1. 参数量与得分关系(按模型规模分组)

图片

  • 残酷真相

  1. 理科算力霸权

    千亿模型物理均分82.6,70亿级仅38.3分(相差54%

  2. 小模型死刑区

    参数量<10亿的模型,物理及格率不足5%(仅2款超60分)

  3. 开源小模型灾难

    Qwen3-0.6B(0.6B)物理仅23.3分,比千亿模型低71分!


四、评测小结

  1. 国产模型赢麻了

    文科TOP5国产占4席,理科仅化学失守——中文场景已成国产护城河

  2. 开源逼近临界点

    DeepSeek-R1总分超GPT-4o 24分,开源模型首次威胁商用头部阵营

  3. 参数量的铁律

    当物理题需要空间推理时,70亿参数=不及格(行业部署需谨慎!)。

大模型还存在着诸多缺陷,但整体能力是越来越强的,这可能会引发“被替代”等各个层面的焦虑,但创造力是人类的独特优势。我们不必跑赢AI,只需抵达机器永远到不了的远方。

今天高考,小编祝所有考生,都能超常发挥,金榜题名。

    • 如需要看更多关于本次高考评测的更多数据内容,请后台私信:

      ① 后台私信“高考”获取119个大模型成绩单;

      ② 后台私信/评论获取教育最新评测集、badcase;

关于大模型评测NoneLinear:https://nonelinear.com

  1. 最全——全球最全大模型评测平台,已囊括200+大模型、300+评测维度

  2. 最新——每周更新大模型排行榜

  3. 最方便——无需注册/梯子,国内外各个大模型可一键评测

  4. 结果可见——所有大模型评测的方法、题集、过程、得分结果,可见可追溯

  5. 错题本——百万级大模型缺陷库

  6. 免费——为您的私有模型提供免费的全方位评测服务,欢迎私信

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值