AI高考大乱斗!六大顶尖模型挑战高考数学题,结论却引发争议

2025年高考数学考场外,当考生们还在为立体几何的辅助线抓耳挠腮时,六大顶尖AI模型交出了它们的答卷——在总分732025年新课标卷客观题测试中豆包与元宝68并列第一OpenAI o3却以34惨遭垫底

图片

在单选题战场,豆包、通义、元宝和文心曾携手斩获35分,DeepSeek 因两道题失误,单选题拿下30分,而 o3则惨遭滑铁卢,单选题的得分仅为20分,错了一半的题目。

图片

而在多选题方面,豆包、DeepSeek 和元宝均表现完美,三道题全对,展现出强大的稳定性。相对来说,通义的表现虽然快速,但在关键时刻的判断失误也导致得分不理想。

图片

在填空题的测试中,文心X1明明算出了公比2-2,却因画蛇添足加了句"通常取正值",与满分失之交臂。

最令人难以置信的是,o3"送分题"都啃不下——面对等差数列的充要条件证明,它前两步推理如行云流水,第三步却突然开启胡说八道模式,最终算出个选项里根本没有的答案。

基于以上表现得出了豆包和元宝并列第一,OpenAI o3垫底的结论。

然而,这样的结论却引发了争议。很多网友表示该结论缺乏公正性和客观性。

总的来说,争议点主要集中在以下几点:

1. DeepSeek 作为非多模态大模型,却被当作多模态模型来测评

测试者把图表交给 DeepSeek 解读并指责 DeepSeek 对图表视而不见蒙答案糊弄人」。

图片

2. o3 网页版存在降智情况,不符合真实表现

O3的降智导致测试结果垫底,但明明知道o3可能会触发降智,却仅仅在网页端测试,这样的答案是否具备客观公正性?

3. 仅仅通过模型网页发送题目截图测评方法缺乏严谨性

考虑到测试的是模型的数学推理能力,很多网友认为应该使用学术界最广泛使用的数学公式排版语言LaTeX进行测评,不应该简单采取发送截图的方式

综上,对于这样的结论,大家的看法各不相同。

但可以肯定的是,随着AI技术的高速发展,AI大模型的推理能力已经上升到新的高度,这些顶尖大模型的差距,也不再像几年前那么明显了。相信在未来,各大模型在推理能力方面的差距,将会进一步减小。
 

对于这样的测试结果,大家怎么看?欢迎在评论区留言讨论~

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值