国内大模型,哪个做数学最厉害?系列2之初中篇

前面给大家对比了国内各个大模型解答小学数学题的表现,今天继续上难度,看看各个大模型解答初中数学题的表现怎么样。

打分标准:这次不是所有的题目都是文字(因为有几何题),因此不仅考察解题的能力,还考察识别和理解题目的能力:对于每个模型,识别并理解题目正确,得0.5分,解答正确再得0.5分。

这次参与PK的参赛选手依然还是文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI,对于这些选手:

  • 如果本身支持高阶视觉理解能力,则选择视觉版本进行测试,例如Kimi(视觉思考版)
  • 如果不支持高阶视觉版本,则选择通用的能理解图片的免费最高版本进行测试,包括文心一言、Kimi、豆包、通义千问、讯飞星火、海螺AI、智谱清言、腾讯元宝、天工AI。

同时,每次测试时都清空上下文或者新建对话,避免上下文对模型解题带来的影响;
同时添加指令一步步推理解答这个数学题,引导模型来逐步思考并解答问题。

题目1-几何题

正确答案:150°。

文心一言解答:

题目理解正确,但是解答错误,得0.5分。

Kimi解答:
在这里插入图片描述

题目理解和解答都正确,得1分,但是确实思考和反思过程太长,想得过于复杂。

豆包解答:

题目理解和解答都正确,得1分,相比Kimi简直不要简洁太多。

通义千问解答:

题目理解正确,但解答不正确,得0.5分。

讯飞星火解答:

题目理解正确,但解答不正确,得0.5分。

海螺AI解答:

题目理解正确,但解答不正确,得0.5分。

智谱清言解答:

题目理解正确,但解答不正确,得0.5分。

腾讯元宝解答:

题目理解和解答都正确,得1分。

天工AI解答:

暂不支持输入图片,本题作废,得0分。

看来初中题目还是很有区分度的,不一定每个选手都能答对,甚至还有不支持输入题目图片的。

题目2-代数题

正确答案:(1)y=(x-2)^2-1y=x^2-4x+3;(2)0<m<4;(3)P的坐标为(3, 1)。

文心一言解答:

题目理解正确,解答正确1/3道,得0.5*1/3=0.17分,总得分0.67分。

Kimi解答:

过程和答案都正确,得1分,但是Kimi-数学版依然会反思,回答过程最长。

豆包解答:

在这里插入图片描述

题目理解正确,解答正确2/3道,得0.5*2/3=0.33分,总得分0.83分。

通义千问解答:

题目理解和解答都正确,得1分,但是飚出英语是怎么回事?

讯飞星火解答:

题目理解正确,解答正确2/3道,得0.5*2/3=0.33分,总得分0.83分。

海螺AI解答:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

题目理解和解答都正确,得1分,表现不俗。

智谱清言解答:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

题目理解正确,解答正确2/3道,得0.5*1/3=0.17分,总得分0.67分,简洁倒是简洁,就是正确率低了点。

腾讯元宝解答:

外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传

题目理解和解答都正确,得1分。

天工AI解答:

依然弃赛弃赛,得0分。

本题解答很有区分度,不同模型对不同题目的解答表现都不一样。

题目3

在这里插入图片描述

正确答案:C。

文心一言解答:

在这里插入图片描述

题目理解正确,但解答错误,得0.5分,今天文心一言的整体表现都欠佳。

Kimi解答:

题目理解和解答都正确,得1分,果然Kimi还是有两把刷子,在题目的理解和推理解答上都胜出一筹。

豆包解答:

过程理解正确,但解答错误,得0.5分,虽然过程很长。

通义千问解答:

题目理解正确,但是解答错误,得0.5分。

讯飞星火解答:

题目理解正确,但是解答依然错误,得0.5分,错误的大多选B。

海螺AI解答:


题目理解正确,解答错误,得0.5分。

智谱清言解答:

在这里插入图片描述

题目理解正确,解答错误,得0.5分。

腾讯元宝解答:

题目理解正确,但是解答还是错误,得0.5分。

天工AI解答:

直接放弃了。

本题解答一如既往地简单,所有AI选手都回答正确。

最后得分统计如下:

模型题目1题目2题目3总分
文心一言0.50.670.51.67
Kimi1113
豆包10.830.52.33
通义千问0.510.52
讯飞星火0.50.830.51.83
海螺AI0.510.52
智谱清言0.50.670.51.67
腾讯元宝110.52.5
天工AI0000

这次结果与上次结果相比,完全不同,在相比小学题目难度更大的初中题目上表现各异,Kimi-视觉思考版确实体现出了与其他模型相比更大的优势,豆包也紧跟其后,相比之下文心一言就逊色很多、成为垫底的选手。

本评测属于不权威评测,没有对解答过程进行详细考察和量化分析,仅为图一乐,也大概了解下各个模型的能力,它们的数学基本功体现出了巨大的差异!下一期再上难度!

如果各位小伙伴有推荐的其他AI平台,也可以在评论区留言,下期评测东哥将其加入到参赛选手名单中。如果你也对AI感兴趣,那么赶紧通过下方的公众号卡片找到我吧~
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

东哥说AI

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值