每年高考,是6月越不过的话题。而今年高考,大家普遍反馈数学特别难。那正好,我们可以让大模型来答下卷。
毕竟每回新模型发布,都说自己在AIME-2025、AIME-2024、MATH-500等各种数学测试基准上遥遥领先,都说自己达到SOTA级别。
So,我们今天就给10来家国产大模型准备了全国卷一的数学题,看看他们参加高考能拿多少分。
本次参考的大模型考生有:DeepSeek-R1(问小白)、豆包Seed1.5、Qwen3、混元T1、Kimi K1.5、智谱Z1、跃问Step-R1,全部为推理模型。
缺考考生有:DeepSeeek-R1官方版、文心X1-Turbo、讯飞星火x1。
01.考试规则
为保证本次考试公平公正,我们直接用原题测试,不改变题目内容,也不做任何Prompt引导,直接用上传题目图片的方式进行测试。毕竟我们人也是用眼睛看试题,人有看走眼的时候,模型也有视觉理解不行的问题,这完全各凭本事。
所以,DeepSeeek-R1官方版第一个缺考(不支持图片理解),我们找来了问小白递补。
文心X1-Turbo也缺考,因为它的深度思考必须打开联网才能使用。担心作弊问题,被我们直接ban掉。
Ps.文心这逻辑真的有点奇怪,联网与上传附件是完全不同的RAG方式,怎么能一起使用呢?而且还是强制绑定。如果你切换到X1-Turbo模型,又无法上传附件。整个产品逻辑,都怪怪的。
另外,讯飞星火x1也缺考了,它说高考期间让我换个问题。
以下是考试规则:
1.本次测试直接用图片输入,不改变题目内容,也不做任何Prompt引导。
2.题型尽量覆盖全面,本次测试选择了四道单选题、两道多选题、两道填空题和两道解答题。
3.单选题每题计5分,多选题每题计10分(答案不全扣5分),填空题每题计10分,解答题每题计20分(答错一个小问扣10分),这样刚好是100分。
4.各模型每题只跑一次,毕竟现实中,每位考生也只有一次的作答机会。
5.将超时问题加入评判标准,如果模型陷入无限循环则计为0分。
6.所有模型都选择推理模式,不开联网,不允许写代码沙盒计算(相当于带计算器)。
02.考试试题
本次考试,一共10道题,全部取自全国卷一。
1)单选题一
2)单选题二
3)单选题三
4)单选题四
5)单选题一
6)多选题二
7)填空题一
8)填空题二
9)解答题一
10)解答题二
03.考试结果
单选题,所有模型全对。
到多选题部分,就开始分出高下了。
多选题一,千问3陷入了无限循环,我只好暂停了它(其实千问3也做对了,但是它一直陷入了觉得只有一个正确答案的自检循环中,这样考下去100%超时),其他大模型都做对了。
多选题二,千问3直接做错。
跃问Step-R1其实一开始是对的,已经思考出了正确答案。但是它和千问3一样,在一通自检后只给出了一个答案,所以扣了一半的分。
填空题,所有模型也是全对。
解答题一,千问3做错了一个小问(所以我们算他一半分)。
DeepSeek-R1的思考过程是对的,但是回答的时候中途停下来了,只答对了一个小问(我们算它得一半的分)。
跃问Step-R1也是只做对了第一小问,得一半的分。其他模型,则是全对。
最后一道解答题,出问题的大模型就比较多了。
首先是DeepSeek-R1直接摆烂,算到一半就停了(并不是网络问题,所有模型我们都是在同一网络下同时开测的)。
千问3、混元T1、跃问Step-R1都是错了第二问的第二小问(算他们15分),而且算出的错误答案居然一样,不知道三个AI到底同时想到了什么
千问3:
Kimi k1.5:
有意思的是,Kimi最后一题解到一半直接不解了,还在思考的时候说什么解题时间不够了,不是哥们?真把自己当高考考生了啊
最后一题,只有唯二的豆包Seed1.5和智谱Z1做对。
最终,所有模型的得分情况如下:
豆包Seed1.5、智谱拿到满分,混元T1也表现不错,DeepSeek-R1、Qwen3有点拉跨(多数情况是因为想得太多导致拿不到分)。
04.写在最后
这个结果,有点令我意外。在开测之前,我以为会是DeepSeek-R1霸榜,没想到却是豆包Seed1.5、智谱Z1和腾讯混元T1拿下三甲。而且,豆包和智谱还拿到了满分。
DeepSeek-R1和Qwen3丢分,主要是因为想得太多,要么是没有做完题,要么是在规则理解上出了问题,导致丢大分。kimi K1.5和跃问Step-R1,也有点类似。
在最后一道解答题上,则不少模型都做错了。看得出,在深度问题、复杂问题上还是很考验模型的底层能力。
这回测试,Qwen3表现垫底,或许跟它的思维方式有关。很多时候,它明明思考过程都想对了,但是在答卷时却陷入了一根筋,复检一遍反而答错。
不过,再怎么找理由,题没做出来或者做错就是能力的体现。就像高考一样,它可能不是人生的终极答案,但会是一个重要的分水岭。
在Way to AGI的路上,人们不会给AI开绿色通道、建规则前提。通用人工智能能否适应人类只有一个标准——通用性和自适应。
所以,继续前进吧。
一、大模型风口已至:月薪30K+的AI岗正在批量诞生
2025年大模型应用呈现爆发式增长,根据工信部最新数据:
国内大模型相关岗位缺口达47万
初级工程师平均薪资28K
70%企业存在"能用模型不会调优"的痛点
真实案例:某二本机械专业学员,通过4个月系统学习,成功拿到某AI医疗公司大模型优化岗offer,薪资直接翻3倍!
二、如何学习大模型 AI ?
🔥AI取代的不是人类,而是不会用AI的人!麦肯锡最新报告显示:掌握AI工具的从业者生产效率提升47%,薪资溢价达34%!🚀
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
1️⃣ 提示词工程:把ChatGPT从玩具变成生产工具
2️⃣ RAG系统:让大模型精准输出行业知识
3️⃣ 智能体开发:用AutoGPT打造24小时数字员工
📦熬了三个大夜整理的《AI进化工具包》送你:
✔️ 大厂内部LLM落地手册(含58个真实案例)
✔️ 提示词设计模板库(覆盖12大应用场景)
✔️ 私藏学习路径图(0基础到项目实战仅需90天)
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
* 大模型 AI 能干什么?
* 大模型是怎样获得「智能」的?
* 用好 AI 的核心心法
* 大模型应用业务架构
* 大模型应用技术架构
* 代码示例:向 GPT-3.5 灌入新知识
* 提示工程的意义和核心思想
* Prompt 典型构成
* 指令调优方法论
* 思维链和思维树
* Prompt 攻击和防范
* …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
* 为什么要做 RAG
* 搭建一个简单的 ChatPDF
* 检索的基础概念
* 什么是向量表示(Embeddings)
* 向量数据库与向量检索
* 基于向量检索的 RAG
* 搭建 RAG 系统的扩展知识
* 混合检索与 RAG-Fusion 简介
* 向量模型本地部署
* …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
* 为什么要做 RAG
* 什么是模型
* 什么是模型训练
* 求解器 & 损失函数简介
* 小实验2:手写一个简单的神经网络并训练它
* 什么是训练/预训练/微调/轻量化微调
* Transformer结构简介
* 轻量化微调
* 实验数据集的构建
* …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
* 硬件选型
* 带你了解全球大模型
* 使用国产大模型服务
* 搭建 OpenAI 代理
* 热身:基于阿里云 PAI 部署 Stable Diffusion
* 在本地计算机运行大模型
* 大模型的私有化部署
* 基于 vLLM 部署大模型
* 案例:如何优雅地在阿里云私有部署开源大模型
* 部署一套开源 LLM 项目
* 内容安全
* 互联网信息服务算法备案
* …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】