大意外!高考数学轮战大模型,结果完全想不到

西风 克雷西 发自 凹非寺
量子位 | 公众号 QbitAI

听说网友被ChatGPT气炸了!

e2ee53f0a8763c59484c911ddfd2b7ea.gif

昨个儿高考数学刚结束,有网友就坐不住了,赶紧找来了新高考数学一卷的部分题喂给了AI同学。

结果却让人大跌眼镜(8>√9×3=3√3?):

aa0012aee6e56de3c2e8941ef2efb40a.png

有网友表示:

ChatGPT4能把自己气炸,怎么教都不会

13541d33bf931de62069d2f103a54d71.png
图源博主@浪猪灰头

所以大模型之前表现数学推理能力好,都是在耍花招?它只是记住了问题的答案?

先别着急下定论,给AI同学一个证明自己的机会吧。

我们用ChatGPT(GPT-3.5)、GPT-4、百度文心一言、阿里通义千问、科大讯飞星火认知大模型这几位“数学高手”进行了测试。(最近出现了太多的大模型,实在测不完,还有比如Bard不支持中文等原因,所以我们先选择了上述几个模型)

b11bfb64274d2320cc7130feaeaae8c8.png

整体表现如上图,目前大模型在做高考数学题方面还是个“差生”。

一起来看下具体结果是怎样令人哭笑不得的。

五大模型能否做对填空题?

先来点填空题当“开胃小菜”。

公平起见,我们使用同样的格式进行提问。

某学校开设了4门体育类选修课和4门艺术类选修课,学生需从这8门课中选修2门或3门课,并且每类选修课至少选修1门,则不同的选课方案共有?种

答案:64

GPT-4(正确)

a22cb73037fee2d03ec76756ab609ff0.png

ChatGPT (错误)

881d69ff4b3bea1924e5f57f42985e42.png

文心一言(错误)

c748bc3230e460efaf08692293f89af7.png

不应该是两种方案数加起来吗?已经逐渐离谱。

通义千问(错误)

c7a9436483ed8184bc3a9ce8f6b4e664.png

第一种选课方案里的“都不选”是个什么鬼!

讯飞星火(错误)

4c8ecdb2374ea02d26a66d61f7a36ff4.png

出师不利,只有GPT-4给出了正确答案,填空题对于大模型来说也很有难度?

但是看起来这几位AI同学都知道分情况来计算,也许只是恰巧这道题做错了?我们接着往下看。

在正四棱台 ABCD-A1B1C1D1中,AB=2,A1B1=1,AA1=√2,则该棱台的体积为

答案:7√6/6

GPT-4 (错误)

402b74897a68e5c846a8a446271c16f1.png

ChatGPT(无解)

61b0f7e5c8fee1e0c893b8d8e71439a4.png

文心一言(错误)

341933c52c728272d08e525d94669efb.png

通义千问(错误)

ed6ee625e80d3d3f9a10b9e1160fa305.png

讯飞星火(错误)

b55d8d41e5ea80c75052546b01ec64d0.png

这一题直接全军覆灭,ChatGPT更是直接没解出来,还让检查是不是题出错了。【救命】

答案越来越离谱了,还真就不信邪了。

再来!

已知函数 f(x)= cosωx -1(ω>0)在区间 [0,2π]有且仅有 3 个零点,则ω的取值范围是?

答案:[2,3)

GPT-4(错误)

4318fc750870fac7cae7b2177ae30452.png

ChatGPT(错误)

56fc45c85ef011601ee05811abab60ef.png

文心一言(错误)

85fcacd36612a790ef9464e721a10e6d.png

通义千问(错误)

b309f87cc29447331a9a69fa914de687.png

讯飞星火(正确)

93aaa9778e760174de041e3b5edc430c.png

21980d403c92cdb6b6a8272d6a00f71b.gif

本已经抱着再一次全军覆没的心情了,没想到中文大模型力挽狂澜!

做大题表现如何?

玩腻了填空题,再来挑战一下更有难度的大题吧!

公平起见,我们还是以同样的格式进行提问:

请你做一下面这道数学题:已知在△ABC中,A+B=3C,2sin(A-C)=sinB。(1)求sinA (2)设AB=5,求AB边上的高

答案:(1)3√10 /10(2)6

下面是各个大模型的表现结果:

GPT-4(错误)

4fd3ce9868cd64f07a852aeb42289c3a.pngf84ac2418f89b0872baa7a6a7296013d.png

ChatGPT(错误)

150e269c9537480ae9a627978f30595b.png

文心一言(错误)

02bb082aecfae5adf22591b99de3d60f.png

通义千问(错误)

9a9c08a43309ba304147f255d0a0ae9d.png
c9513ad14ccffc926cacb49aa11d6a12.png

讯飞星火(第一问答案正确,第二问错误)

2e3c3c4f5f6aceb803d525c81e8ea0ae.png

946248cff7f88d96ca68f12a6b60f6fe.png

这道三角函数题,科大讯飞的星火认知大模型第一小问答案对了,但是步骤中有差错(第二步)。

据说,GPT-4做这种题只有0.1%的概率生成的结果完全正确。

高考数学第一道大题通常都比较简单,上面这几位AI同学的表现你觉得怎么样?

如果大家感兴趣可以自己测试一下后面几道难度相对较高的大题(小编试过了,结果一言难尽,不忍直视)。

或者大家可以使用不同的prompt试试捏~

参考链接:
[1]https://weibo.com/5647310207/N4frlb5tx?refer_flag=1001030103_

「AIGC+垂直领域社群」

招募中!

欢迎关注AIGC的伙伴们加入AIGC+垂直领域社群,一起学习、探索、创新AIGC!

请备注您想加入的垂直领域「教育」或「电商零售」,加入AIGC人才社群请备注「人才」&「姓名-公司-职位」。

8a4137bf155f6b43d570b6d529c4a07e.png

点这里👇关注我,记得标星哦~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值