国内大模型，哪个做数学最厉害？系列2之初中篇

最新推荐文章于 2025-12-05 11:17:30 发布

原创最新推荐文章于 2025-12-05 11:17:30 发布 · 1.7k 阅读

15 ·

CC 4.0 BY-SA版权

文章标签：

#大模型 #豆包 #Kimi #人工智能 #数学推理

AI应用专栏收录该内容

31 篇文章

订阅专栏

前面给大家对比了国内各个大模型解答小学数学题的表现，今天继续上难度，看看各个大模型解答初中数学题的表现怎么样。

打分标准：这次不是所有的题目都是文字（因为有几何题），因此不仅考察解题的能力，还考察识别和理解题目的能力：对于每个模型，识别并理解题目正确，得0.5分，解答正确再得0.5分。

这次参与PK的参赛选手依然还是文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI，对于这些选手：

如果本身支持高阶视觉理解能力，则选择视觉版本进行测试，例如Kimi（视觉思考版）；
如果不支持高阶视觉版本，则选择通用的能理解图片的免费最高版本进行测试，包括文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI。

同时，每次测试时都清空上下文或者新建对话，避免上下文对模型解题带来的影响；
同时添加指令一步步推理解答这个数学题，引导模型来逐步思考并解答问题。

题目1-几何题

正确答案：150°。

文心一言解答：

题目理解正确，但是解答错误，得0.5分。

Kimi解答：
在这里插入图片描述

题目理解和解答都正确，得1分，但是确实思考和反思过程太长，想得过于复杂。

豆包解答：

题目理解和解答都正确，得1分，相比Kimi简直不要简洁太多。

通义千问解答：

题目理解正确，但解答不正确，得0.5分。

讯飞星火解答：

题目理解正确，但解答不正确，得0.5分。

海螺AI解答：

题目理解正确，但解答不正确，得0.5分。

智谱清言解答：

题目理解正确，但解答不正确，得0.5分。

腾讯元宝解答：

题目理解和解答都正确，得1分。

天工AI解答：

暂不支持输入图片，本题作废，得0分。

看来初中题目还是很有区分度的，不一定每个选手都能答对，甚至还有不支持输入题目图片的。

题目2-代数题

正确答案：（1）y=(x-2)^2-1或y=x^2-4x+3；（2）0<m<4；（3）P的坐标为(3, 1)。

文心一言解答：

题目理解正确，解答正确1/3道，得0.5*1/3=0.17分，总得分0.67分。

Kimi解答：

过程和答案都正确，得1分，但是Kimi-数学版依然会反思，回答过程最长。

豆包解答：

在这里插入图片描述

题目理解正确，解答正确2/3道，得0.5*2/3=0.33分，总得分0.83分。

通义千问解答：

题目理解和解答都正确，得1分，但是飚出英语是怎么回事？

讯飞星火解答：

题目理解正确，解答正确2/3道，得0.5*2/3=0.33分，总得分0.83分。

海螺AI解答：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

题目理解和解答都正确，得1分，表现不俗。

智谱清言解答：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

题目理解正确，解答正确2/3道，得0.5*1/3=0.17分，总得分0.67分，简洁倒是简洁，就是正确率低了点。

腾讯元宝解答：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

题目理解和解答都正确，得1分。

天工AI解答：

依然弃赛弃赛，得0分。

本题解答很有区分度，不同模型对不同题目的解答表现都不一样。

题目3

正确答案：C。

文心一言解答：

在这里插入图片描述

题目理解正确，但解答错误，得0.5分，今天文心一言的整体表现都欠佳。

Kimi解答：

题目理解和解答都正确，得1分，果然Kimi还是有两把刷子，在题目的理解和推理解答上都胜出一筹。

豆包解答：

过程理解正确，但解答错误，得0.5分，虽然过程很长。

通义千问解答：

题目理解正确，但是解答错误，得0.5分。

讯飞星火解答：

题目理解正确，但是解答依然错误，得0.5分，错误的大多选B。

海螺AI解答：

题目理解正确，解答错误，得0.5分。

智谱清言解答：

在这里插入图片描述

题目理解正确，解答错误，得0.5分。

腾讯元宝解答：

题目理解正确，但是解答还是错误，得0.5分。

天工AI解答：

直接放弃了。

本题解答一如既往地简单，所有AI选手都回答正确。

最后得分统计如下：

模型	题目1	题目2	题目3	总分
文心一言	0.5	0.67	0.5	1.67
Kimi	1	1	1	3
豆包	1	0.83	0.5	2.33
通义千问	0.5	1	0.5	2
讯飞星火	0.5	0.83	0.5	1.83
海螺AI	0.5	1	0.5	2
智谱清言	0.5	0.67	0.5	1.67
腾讯元宝	1	1	0.5	2.5
天工AI	0	0	0	0

这次结果与上次结果相比，完全不同，在相比小学题目难度更大的初中题目上表现各异，Kimi-视觉思考版确实体现出了与其他模型相比更大的优势，豆包也紧跟其后，相比之下文心一言就逊色很多、成为垫底的选手。

本评测属于不权威评测，没有对解答过程进行详细考察和量化分析，仅为图一乐，也大概了解下各个模型的能力，它们的数学基本功体现出了巨大的差异！下一期再上难度！

如果各位小伙伴有推荐的其他AI平台，也可以在评论区留言，下期评测东哥将其加入到参赛选手名单中。如果你也对AI感兴趣，那么赶紧通过下方的公众号卡片找到我吧~
在这里插入图片描述