前面专门对Kimi新出的k1的视觉能力和解题能力进行了测试,那既然国内推出了这么多大模型,就放在一起进行一个简单的横屏,看看国内大模型做数学题哪家强?题目难度逐渐递增,这次先来个开胃菜,从小学题目开始。
打分标准:对于每个模型,解答每道题如果答案和分析过程都正确,则给1分,如果答案正确而无过程或过程不正确,则给0.5分,答案不正确(不管过程是否正确),得分为0。
这次参与PK的参赛选手包括文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI,对于这些选手:
- 如果本身支持数学版本,则选择数学版本进行测试,例如Kimi(数学版);
- 如果不支持数学版本,则选择通用的免费最高版本进行测试,包括文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI。
同时,每次测试时都清空上下文或者新建对话,避免上下文对模型解题带来的影响;
同时添加指令一步步推理解答这个数学题
,引导模型来逐步思考并解答问题。
题目1
有20千克浓度为15%的糖水,加水多少千克后,浓度变为10%?
正确答案:10千克。
文心一言解答:
过程和答案都正确,得1分。
Kimi解答:
过程和答案都正确,得1分。
豆包解答:
过程和答案都正确,得1分。
通义千问解答:
过程和答案都正确,得1分。
讯飞星火解答:
过程和答案都正确,得1分。
智谱清言解答:
过程和答案都正确,得1分,过程最简洁。
腾讯元宝解答:
过程和答案都正确,得1分,过程也相对简洁。
天工AI解答:
过程和答案都正确,得1分。
本题还是解答很顺畅,所有AI选手都回答正确。
题目2
一项工程,甲单独做4天完成,乙单独做6天完成。甲乙同时做2天后,由乙单独做,几天完成?
正确答案:1天。
文心一言解答:
过程和答案都正确,得1分。
Kimi解答:
过程和答案都正确,得1分,Kimi-数学版怎么还学会了反思,在得到答案后老是会产生困惑。
豆包解答:
过程和答案都正确,得1分。
通义千问解答:
过程和答案都正确,得1分。
讯飞星火解答:
过程和答案都正确,得1分。
智谱清言解答:
过程和答案都正确,得1分。
腾讯元宝解答:
过程和答案都正确,得1分。
天工AI解答:
过程和答案都正确,得1分。
本题解答依然简单,所有AI选手都回答正确。
题目3
整个牧场上草长得一样密,一样快。27头牛6天可以把草吃完;23头牛9天也可以把草吃完。问21头多少天把草吃完。
正确答案:12天。
文心一言解答:
过程和答案都正确,得1分。
Kimi解答:
过程和答案都正确,得1分,果然Kimi-数学版还是倾向质疑自己,本来回答已经正确了,还要去怀疑做错了,去反复验证,有点不够果敢,没了通用版的干脆。
豆包解答:
过程和答案都正确,得1分。
通义千问解答:
过程和答案都正确,得1分,回答相对完整。
讯飞星火解答:
过程和答案都正确,得1分,回答也很完整。
智谱清言解答:
过程和答案都正确,得1分。
腾讯元宝解答:
过程和答案都正确,得1分,回答看起来很清爽。
文心一言、、、、、、、、
天工AI解答:
过程和答案都正确,得1分。
本题解答一如既往地简单,所有AI选手都回答正确。
最后得分统计如下:
模型 | 题目1 | 题目2 | 题目3 | 总分 |
---|---|---|---|---|
文心一言 | 1 | 1 | 1 | 3 |
Kimi | 1 | 1 | 1 | 3 |
豆包 | 1 | 1 | 1 | 3 |
通义千问 | 1 | 1 | 1 | 3 |
讯飞星火 | 1 | 1 | 1 | 3 |
海螺AI | 1 | 1 | 1 | 3 |
智谱清言 | 1 | 1 | 1 | 3 |
腾讯元宝 | 1 | 1 | 1 | 3 |
天工AI | 1 | 1 | 1 | 3 |
结果意料之外,又在情理之中,所有模型都拿到了满分。低难度题目很难有区分度,大模型基本上都能应付,未分出胜负,每道题都答对了,只是解答过程不太相同,解答方法也各异,详略程度也有所不同。现在的大模型确实各方面能力越来越强了,2023年的时候百模大战、模型理解推理能力差、状况频发的时代已经过去了!
本评测属于不权威评测,没有对解答过程进行详细考察和量化分析,仅为图一乐,也大概了解下各个模型的能力,它们的数学基本功都还算扎实!下一期继续上难度!
可能未覆盖国内所有AI平台,各位小伙伴有推荐的也可以在评论区留言,下期评测东哥将其加入到参赛选手名单中。