o1 Pro挑战最难本科数学考试,36分钟16秒交卷

一水 发自 凹非寺
量子位 | 公众号 QbitAI

o1 Pro挑战最难本科数学考试,人类要考6小时,AI半小时交卷!

普特南数学竞赛(The Putnam exam),今年刚刚举行,卷子新鲜出炉就被拿来测试AI了。

88d6c817f4eb2b708e052ae2d29bf2d8.png

这个比赛有多难呢?看了一下历年成绩,只能说令人咂舌——

通常由数学专业的本科生参加,满分120分,但平均分通常是0分或1分。
自1938年举办以来,截至2021年只有5人满分。

再看一组2003年的数据,在3615名参赛学生中,有1024人(28%)得分10分或以上,42分就能进入前1%。

d1c0dc6196f457a19bce6e657883697d.png

最终,个人得分前五名的学生获得普特南学者称号。而经过这种难度的“磨炼”,普特南学者中后来诞生了3位菲尔兹奖得主以及两位诺贝尔物理学奖得主。

总之一句话,即使对美国顶尖大学的顶尖数学学生来说,这个比赛的难度都堪称地狱级。

所以,o1 Pro具体表现如何呢??

o1 Pro挑战最难本科数学考试

普特南数学竞赛于每年12月的第一个周六举行,总共上下两场(每场3小时),每场6道题,每题10分,考查范围覆盖了本科数学中的高级概念,包括群论、集合论、图论、格论和数论等。

由于刚考完,官方还未正式公布今年的参考答案,所以下面我们先整体感受一下。

从时间来看,Pro完成12道题用时36分钟16秒,交卷速度非常快,平均每道用时2~3分钟。

975f2ddc5227996cb332568b41583d88.png

完成的题也很复杂,随机挑一道康康。

2bac3900d38e562e06e0c0efc4328ac1.png

比如这道A6,需要考生通过序列所生成的函数,来构建矩阵,并最终计算出这个矩阵的行列式。

这是一个典型的组合数学和线性代数的交叉问题。

最终,Pro给出了一大堆让人头疼的数学公式进行解答。(非专业选手两眼一黑的程度)

e17fe6e3888fc33d35bcff294323f155.gif

为了进一步了解Pro的答题过程,我们再挑一道网友们都在cue的题——A1

原题及Dan Hendrycks博士输入的提示词如下:

大意为,确定所有正整数𝑛,使得存在正整数𝑎,𝑏和𝑐满足下列方程。

84a6ab9460f3681638d4e9e058f15385.png
608b567428250ec8d58f3a7c92b51762.png

Pro的作答过程如下,并得出答案为1:

972e5ae2a941fc4befb03f895a93ae71.gif

结合网友们给出的评价,均提到Pro漏掉了n=2这种情况。

c7776ec8754526f3fe7644258cc52fb0.png

总之,从大家对Pro的打分来看,其回答质量仍有待进一步完善。

由于目前还没有标准答案,因此AI究竟做对了多少还要等等结果。

5a97e7e953da476928067b2ba45724ba.png

除此之外,首位全职提示词工程师Riley Goodside也对o1 Pro模式进行了其他诸多测试。

挑战指令跟随的极限

比如用它设计一个7x7的网格,网格的外围一圈填入7个字母的单词,这些单词代表Fantastic Four(神奇四侠)中每个成员的昵称。每个单词的首尾字母需要重叠,以便可以顺时针方向连续阅读,形成闭环。

PS:Fantastic Four包括漫威中的神奇先生(Mr. Fantastic)、隐形女(Invisible Woman)、霹雳火(Human Torch) 、石头人(The Thing)。

e3f6c13b69bd336dcf4c5a091a9bad0e.png

看完这个测试,有网友借机许愿:

是否能够根据每个玩家剩余的棋子列表,创建一个checkmate(指另一方无法解围的情况,也称“将死”)的棋盘。

8ebe60a5bb6c5c782911f7f8fb54724f.png

受此启发,Riley Goodside转头就测上了。

他用Pro摆出了一个“将军”格局——每位玩家只剩下两个兵和一个车,棋盘上其他格子都是空的。(布局是人为设计的)

7581137512990b161a869f4e063eb213.png

就这,还是他一番努力尝试后的结果。他一开始用了两个兵、两个象和一个车的棋局,但在多次尝试中,Pro出现了错误,或者返回了不符合的棋局。

abf40e22bd6c0fa05922a8b871ede8b3.png

不过他也提到,在5分45秒的时间内,Pro生成了与答案大致一致的COT思维链解释。

5348e9f56478ef77c143fad2f38be6f7.png

总之,要问定价200美元的Pro到底值不值?

还是参考奥特曼的回答,绝大多数人用免费版或20美元版就足够了,Pro版只适合很小一部分人,他们想要大量使用,且愿意为解决真正困难的问题付更多钱。

ff0b670de3b522747faa6e1e51eb2adc.png

One More Thing

不过,如果你也心痒想要玩一玩,现在有个省钱的方法。根据网友提醒——

月底买Pro,只需按比例支付了。

具体来说,如果你之前订阅了ChatGPT Plus,如果在订阅接近结束时升级到Pro版,就可以在剩余时间内按照200美元的百分比支付。

2355bb6742e1afaefe73239982e1e01f.png

参考链接:
[1]https://x.com/DanHendrycks/status/1865858756040704335
[2]https://x.com/goodside/status/1865844652428919121
[3]https://x.com/goodside/status/1865629150104404150
[4]https://x.com/goodside/status/1865514669697323290
[5]https://x.com/goodside/status/1865090104441672183
[6]https://x.com/SmokeAwayyy/status/1865441145788199051

MEET2025大会在即

倒计时一周 ⏰ 欢迎报名

🌟 一年一度的科技顶流盛会就要来了!

☄️ 两场GenAI Talk一场具身智能圆桌,直指时下热门议题!工业界学术界顶流大咖齐聚,还有两份关键参考「年度AI趋势报告」「2024人工智能年度评选」榜单即将发布!了解详情

🚀 点击报名参会,12月11日,期待与您一起预见智能科技新未来!

79ba426625cb6883da02dc86cb32cb9b.png

c1534568752a40b642d0ff69c52d4d39.png

a2b9672f69033618fcd0193c1a0c8824.png

625054e96a6ba9fd6c3dde4764ab50b1.png

fa4e8b10be24efed1ca8720b7023b9d4.png

25effdb0281e00f6f0560cd8d46132f2.png

cf31d4e6208065223db5ef559a9a9982.png

8987152bdaabac6683296dd681d92551.png

5c11193ad18c9cb53e82f801d6db603c.png

7c2345a470e945cc2bd8929511fff916.png

2038a064fa456ed140d101233eb4cb6e.png

2ff1ed3180743cf8286a955bf7fc396d.png

6c3ddbbd094d92b21238612152639e8c.png

542ec4aa4c0ad8fe5200188e1cf9553e.png

3ea6fe35b34693e0820b47b7d7c83053.png

781fdba77bcaa0be887811af78010758.png

9b6849c7a6b20b150a9c27f1e1e990b3.png

cefa2945ff2ba22dc3629bfd4b7ae300.png

fa62581d908f9bd2bca5e8fce0405063.png

08405e81147c7af9c6b7309bad75f76f.png

a630142aad2f2c941201aabd07e814d2.png

01201e5f5fae37b7eb29e824fde2297a.png

outside_default.png

左右滑动查看最新嘉宾阵容

outside_default.png

点这里👇关注我,记得标星哦~

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值