国内大模型，哪个做数学最厉害？系列1之小学篇

最新推荐文章于 2025-12-05 11:17:30 发布

原创最新推荐文章于 2025-12-05 11:17:30 发布 · 1.2k 阅读

13 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #大模型 #数学能力 #LLM #AI

AI应用专栏收录该内容

31 篇文章

订阅专栏

前面专门对Kimi新出的k1的视觉能力和解题能力进行了测试，那既然国内推出了这么多大模型，就放在一起进行一个简单的横屏，看看国内大模型做数学题哪家强？题目难度逐渐递增，这次先来个开胃菜，从小学题目开始。

打分标准：对于每个模型，解答每道题如果答案和分析过程都正确，则给1分，如果答案正确而无过程或过程不正确，则给0.5分，答案不正确（不管过程是否正确），得分为0。

这次参与PK的参赛选手包括文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI，对于这些选手：

如果本身支持数学版本，则选择数学版本进行测试，例如Kimi（数学版）；
如果不支持数学版本，则选择通用的免费最高版本进行测试，包括文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI。

同时，每次测试时都清空上下文或者新建对话，避免上下文对模型解题带来的影响；
同时添加指令一步步推理解答这个数学题，引导模型来逐步思考并解答问题。

题目1

有20千克浓度为15%的糖水，加水多少千克后，浓度变为10%？

正确答案：10千克。

文心一言解答：

过程和答案都正确，得1分。

Kimi解答：

过程和答案都正确，得1分。

豆包解答：

过程和答案都正确，得1分。

通义千问解答：

过程和答案都正确，得1分。

讯飞星火解答：

过程和答案都正确，得1分。

智谱清言解答：

过程和答案都正确，得1分，过程最简洁。

腾讯元宝解答：

过程和答案都正确，得1分，过程也相对简洁。

天工AI解答：

过程和答案都正确，得1分。

本题还是解答很顺畅，所有AI选手都回答正确。

题目2

一项工程，甲单独做4天完成，乙单独做6天完成。甲乙同时做2天后，由乙单独做，几天完成？

正确答案：1天。

文心一言解答：

过程和答案都正确，得1分。

Kimi解答：

过程和答案都正确，得1分，Kimi-数学版怎么还学会了反思，在得到答案后老是会产生困惑。

豆包解答：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

过程和答案都正确，得1分。

通义千问解答：

过程和答案都正确，得1分。

讯飞星火解答：

过程和答案都正确，得1分。

智谱清言解答：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

过程和答案都正确，得1分。

腾讯元宝解答：

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

过程和答案都正确，得1分。

天工AI解答：

过程和答案都正确，得1分。

本题解答依然简单，所有AI选手都回答正确。

题目3

整个牧场上草长得一样密，一样快。27头牛6天可以把草吃完；23头牛9天也可以把草吃完。问21头多少天把草吃完。

正确答案：12天。

文心一言解答：

过程和答案都正确，得1分。

Kimi解答：

过程和答案都正确，得1分，果然Kimi-数学版还是倾向质疑自己，本来回答已经正确了，还要去怀疑做错了，去反复验证，有点不够果敢，没了通用版的干脆。

豆包解答：

过程和答案都正确，得1分。

通义千问解答：

过程和答案都正确，得1分，回答相对完整。

讯飞星火解答：

过程和答案都正确，得1分，回答也很完整。

智谱清言解答：

过程和答案都正确，得1分。

腾讯元宝解答：

过程和答案都正确，得1分，回答看起来很清爽。
文心一言、、、、、、、、

天工AI解答：

过程和答案都正确，得1分。

本题解答一如既往地简单，所有AI选手都回答正确。

最后得分统计如下：

模型	题目1	题目2	题目3	总分
文心一言	1	1	1	3
Kimi	1	1	1	3
豆包	1	1	1	3
通义千问	1	1	1	3
讯飞星火	1	1	1	3
海螺AI	1	1	1	3
智谱清言	1	1	1	3
腾讯元宝	1	1	1	3
天工AI	1	1	1	3

结果意料之外，又在情理之中，所有模型都拿到了满分。低难度题目很难有区分度，大模型基本上都能应付，未分出胜负，每道题都答对了，只是解答过程不太相同，解答方法也各异，详略程度也有所不同。现在的大模型确实各方面能力越来越强了，2023年的时候百模大战、模型理解推理能力差、状况频发的时代已经过去了！

本评测属于不权威评测，没有对解答过程进行详细考察和量化分析，仅为图一乐，也大概了解下各个模型的能力，它们的数学基本功都还算扎实！下一期继续上难度！

可能未覆盖国内所有AI平台，各位小伙伴有推荐的也可以在评论区留言，下期评测东哥将其加入到参赛选手名单中。