国内大模型,哪个做数学最厉害?系列1之小学篇

前面专门对Kimi新出的k1的视觉能力和解题能力进行了测试,那既然国内推出了这么多大模型,就放在一起进行一个简单的横屏,看看国内大模型做数学题哪家强?题目难度逐渐递增,这次先来个开胃菜,从小学题目开始。

打分标准:对于每个模型,解答每道题如果答案和分析过程都正确,则给1分,如果答案正确而无过程或过程不正确,则给0.5分,答案不正确(不管过程是否正确),得分为0。

这次参与PK的参赛选手包括文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI,对于这些选手:

  • 如果本身支持数学版本,则选择数学版本进行测试,例如Kimi(数学版)
  • 如果不支持数学版本,则选择通用的免费最高版本进行测试,包括文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI。

同时,每次测试时都清空上下文或者新建对话,避免上下文对模型解题带来的影响;
同时添加指令一步步推理解答这个数学题,引导模型来逐步思考并解答问题。

题目1

有20千克浓度为15%的糖水,加水多少千克后,浓度变为10%?

正确答案:10千克。

文心一言解答:

过程和答案都正确,得1分。

Kimi解答:

过程和答案都正确,得1分。

豆包解答:

过程和答案都正确,得1分。

通义千问解答:

过程和答案都正确,得1分。

讯飞星火解答:

过程和答案都正确,得1分。

智谱清言解答:

过程和答案都正确,得1分,过程最简洁。

腾讯元宝解答:

过程和答案都正确,得1分,过程也相对简洁。

天工AI解答:

过程和答案都正确,得1分。

本题还是解答很顺畅,所有AI选手都回答正确。

题目2

一项工程,甲单独做4天完成,乙单独做6天完成。甲乙同时做2天后,由乙单独做,几天完成?

正确答案:1天。

文心一言解答:

过程和答案都正确,得1分。

Kimi解答:

过程和答案都正确,得1分,Kimi-数学版怎么还学会了反思,在得到答案后老是会产生困惑。

豆包解答:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

过程和答案都正确,得1分。

通义千问解答:

过程和答案都正确,得1分。

讯飞星火解答:

过程和答案都正确,得1分。

智谱清言解答:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

过程和答案都正确,得1分。

腾讯元宝解答:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

过程和答案都正确,得1分。

天工AI解答:

过程和答案都正确,得1分。

本题解答依然简单,所有AI选手都回答正确。

题目3

整个牧场上草长得一样密,一样快。27头牛6天可以把草吃完;23头牛9天也可以把草吃完。问21头多少天把草吃完。

正确答案:12天。

文心一言解答:

过程和答案都正确,得1分。

Kimi解答:

过程和答案都正确,得1分,果然Kimi-数学版还是倾向质疑自己,本来回答已经正确了,还要去怀疑做错了,去反复验证,有点不够果敢,没了通用版的干脆。

豆包解答:

过程和答案都正确,得1分。

通义千问解答:

过程和答案都正确,得1分,回答相对完整。

讯飞星火解答:

过程和答案都正确,得1分,回答也很完整。

智谱清言解答:

过程和答案都正确,得1分。

腾讯元宝解答:

过程和答案都正确,得1分,回答看起来很清爽。
文心一言、、、、、、、、

天工AI解答:

过程和答案都正确,得1分。

本题解答一如既往地简单,所有AI选手都回答正确。

最后得分统计如下:

模型题目1题目2题目3总分
文心一言1113
Kimi1113
豆包1113
通义千问1113
讯飞星火1113
海螺AI1113
智谱清言1113
腾讯元宝1113
天工AI1113

结果意料之外,又在情理之中,所有模型都拿到了满分。低难度题目很难有区分度,大模型基本上都能应付,未分出胜负,每道题都答对了,只是解答过程不太相同,解答方法也各异,详略程度也有所不同。现在的大模型确实各方面能力越来越强了,2023年的时候百模大战、模型理解推理能力差、状况频发的时代已经过去了!

本评测属于不权威评测,没有对解答过程进行详细考察和量化分析,仅为图一乐,也大概了解下各个模型的能力,它们的数学基本功都还算扎实!下一期继续上难度!

可能未覆盖国内所有AI平台,各位小伙伴有推荐的也可以在评论区留言,下期评测东哥将其加入到参赛选手名单中。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东哥说AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值