前面给大家对比了国内各个大模型解答小学数学题的表现,今天继续上难度,看看各个大模型解答初中数学题的表现怎么样。
打分标准:这次不是所有的题目都是文字(因为有几何题),因此不仅考察解题的能力,还考察识别和理解题目的能力:对于每个模型,识别并理解题目正确,得0.5分,解答正确再得0.5分。
这次参与PK的参赛选手依然还是文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI,对于这些选手:
- 如果本身支持高阶视觉理解能力,则选择视觉版本进行测试,例如Kimi(视觉思考版);
- 如果不支持高阶视觉版本,则选择通用的能理解图片的免费最高版本进行测试,包括文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI。
同时,每次测试时都清空上下文或者新建对话,避免上下文对模型解题带来的影响;
同时添加指令一步步推理解答这个数学题
,引导模型来逐步思考并解答问题。
题目1-几何题
正确答案:150°。
文心一言解答:
题目理解正确,但是解答错误,得0.5分。
Kimi解答:
题目理解和解答都正确,得1分,但是确实思考和反思过程太长,想得过于复杂。
豆包解答:
题目理解和解答都正确,得1分,相比Kimi简直不要简洁太多。
通义千问解答:
题目理解正确,但解答不正确,得0.5分。
讯飞星火解答:
题目理解正确,但解答不正确,得0.5分。
海螺AI解答:
题目理解正确,但解答不正确,得0.5分。
智谱清言解答:
题目理解正确,但解答不正确,得0.5分。
腾讯元宝解答:
题目理解和解答都正确,得1分。
天工AI解答:
暂不支持输入图片,本题作废,得0分。
看来初中题目还是很有区分度的,不一定每个选手都能答对,甚至还有不支持输入题目图片的。
题目2-代数题
正确答案:(1)
y=(x-2)^2-1
或y=x^2-4x+3
;(2)0<m<4;(3)P的坐标为(3, 1)。
文心一言解答:
题目理解正确,解答正确1/3道,得0.5*1/3=0.17分,总得分0.67分。
Kimi解答:
过程和答案都正确,得1分,但是Kimi-数学版依然会反思,回答过程最长。
豆包解答:
题目理解正确,解答正确2/3道,得0.5*2/3=0.33分,总得分0.83分。
通义千问解答:
题目理解和解答都正确,得1分,但是飚出英语是怎么回事?
讯飞星火解答:
题目理解正确,解答正确2/3道,得0.5*2/3=0.33分,总得分0.83分。
海螺AI解答:
题目理解和解答都正确,得1分,表现不俗。
智谱清言解答:
题目理解正确,解答正确2/3道,得0.5*1/3=0.17分,总得分0.67分,简洁倒是简洁,就是正确率低了点。
腾讯元宝解答:
题目理解和解答都正确,得1分。
天工AI解答:
依然弃赛弃赛,得0分。
本题解答很有区分度,不同模型对不同题目的解答表现都不一样。
题目3
正确答案:C。
文心一言解答:
题目理解正确,但解答错误,得0.5分,今天文心一言的整体表现都欠佳。
Kimi解答:
题目理解和解答都正确,得1分,果然Kimi还是有两把刷子,在题目的理解和推理解答上都胜出一筹。
豆包解答:
过程理解正确,但解答错误,得0.5分,虽然过程很长。
通义千问解答:
题目理解正确,但是解答错误,得0.5分。
讯飞星火解答:
题目理解正确,但是解答依然错误,得0.5分,错误的大多选B。
海螺AI解答:
题目理解正确,解答错误,得0.5分。
智谱清言解答:
题目理解正确,解答错误,得0.5分。
腾讯元宝解答:
题目理解正确,但是解答还是错误,得0.5分。
天工AI解答:
直接放弃了。
本题解答一如既往地简单,所有AI选手都回答正确。
最后得分统计如下:
模型 | 题目1 | 题目2 | 题目3 | 总分 |
---|---|---|---|---|
文心一言 | 0.5 | 0.67 | 0.5 | 1.67 |
Kimi | 1 | 1 | 1 | 3 |
豆包 | 1 | 0.83 | 0.5 | 2.33 |
通义千问 | 0.5 | 1 | 0.5 | 2 |
讯飞星火 | 0.5 | 0.83 | 0.5 | 1.83 |
海螺AI | 0.5 | 1 | 0.5 | 2 |
智谱清言 | 0.5 | 0.67 | 0.5 | 1.67 |
腾讯元宝 | 1 | 1 | 0.5 | 2.5 |
天工AI | 0 | 0 | 0 | 0 |
这次结果与上次结果相比,完全不同,在相比小学题目难度更大的初中题目上表现各异,Kimi-视觉思考版确实体现出了与其他模型相比更大的优势,豆包也紧跟其后,相比之下文心一言就逊色很多、成为垫底的选手。
本评测属于不权威评测,没有对解答过程进行详细考察和量化分析,仅为图一乐,也大概了解下各个模型的能力,它们的数学基本功体现出了巨大的差异!下一期再上难度!
如果各位小伙伴有推荐的其他AI平台,也可以在评论区留言,下期评测东哥将其加入到参赛选手名单中。如果你也对AI感兴趣,那么赶紧通过下方的公众号卡片找到我吧~