2025年高考数学考场外,当考生们还在为立体几何的辅助线抓耳挠腮时,六大顶尖AI模型也交出了它们的答卷——在总分73的2025年新课标Ⅰ卷客观题测试中,豆包与元宝以68分并列第一,OpenAI o3却以34分惨遭垫底。
在单选题战场,豆包、通义、元宝和文心曾携手斩获35分,DeepSeek 因两道题失误,单选题拿下30分,而 o3则惨遭滑铁卢,单选题的得分仅为20分,错了一半的题目。
而在多选题方面,豆包、DeepSeek 和元宝均表现完美,三道题全对,展现出强大的稳定性。相对来说,通义的表现虽然快速,但在关键时刻的判断失误也导致得分不理想。
在填空题的测试中,文心X1明明算出了公比2或-2,却因画蛇添足加了句"通常取正值",与满分失之交臂。
最令人难以置信的是,o3连"送分题"都啃不下——面对等差数列的充要条件证明,它前两步推理如行云流水,第三步却突然开启胡说八道模式,最终算出个选项里根本没有的答案。
基于以上表现得出了豆包和元宝并列第一,OpenAI o3垫底的结论。
然而,这样的结论却引发了争议。很多网友表示该结论缺乏公正性和客观性。
总的来说,争议点主要集中在以下几点:
1. DeepSeek 作为非多模态大模型,却被当作多模态模型来测评
测试者把图表交给 DeepSeek 解读,并指责 DeepSeek 「对图表视而不见蒙答案糊弄人」。
2. o3 网页版存在降智情况,不符合真实表现
O3的降智导致测试结果垫底,但明明知道o3可能会触发降智,却仅仅在网页端测试,这样的答案是否具备客观公正性?
3. 仅仅通过模型网页端发送题目截图,测评方法缺乏严谨性
考虑到测试的是模型的数学推理能力,很多网友认为应该使用学术界最广泛使用的数学公式排版语言LaTeX进行测评,不应该简单采取发送截图的方式。
综上,对于这样的结论,大家的看法各不相同。
但可以肯定的是,随着AI技术的高速发展,AI大模型的推理能力已经上升到新的高度,这些顶尖大模型的差距,也不再像几年前那么明显了。相信在未来,各大模型在推理能力方面的差距,将会进一步减小。
对于这样的测试结果,大家怎么看?欢迎在评论区留言讨论~