o1满血版泄露!奥数题图片推理手拿把掐,奥特曼上线剧透o2

鱼羊 发自 凹非寺
量子位 | 公众号 QbitAI

o1满血版泄露了!

没想到,OpenAI还搁那儿“今年一定”呢,不少网友已经率先上手体验到了(doge)。

事情是酱婶的:有网友发现,OpenAI已经在ChatGPT官网上部署了完整版o1,大家伙儿还都能卡bug直接用!

3b020613724e11f88bef5d2d0a7ec7da.png

最初发现此事的网友,测试确认泄露模型具有奥特曼所说的图像推理能力

dc5bba6b0758c801c1ea6107600aedf1.png
图源:𝕏@legit_rumors

而日志也显示该模型就是o1本模。

b05a292438a5c935bb65b0ae7fd82005.png

于是,赶在OpenAI出手修复之前,网友们抓紧大玩特玩了一波——

满血o1到底有多牛

和已经发布的o1-preview、o1-mini最直观的不同是,泄露出来的o1支持上传附件。

这也就意味着,终于能测测o1的多模态能力了。

网友们也不说废话,直接上强度,普特南数学竞赛的证明题截图一贴,甩给满血o1。

对正整数n,有fn(x)=cos(x)cos(2x)cos(3x)…cos(nx)。找出最小的n,使得|fn‘’(0)|>2023。

0318276cfb8c7339b18c9d93021ed7a0.png

思考了18秒之后,o1给出答案:18。

5b7187fdafde912e7dcbd0ca1618d80d.png

答案正确:

426740d7081873af4cdb4e79daa6fb0e.png

再来一道更复杂的,虽然在识图上遇到了一点小问题,但还是稳稳做对了。

281846dde6ae4f01ac8b6fac05921557.png
237cc7039d6a75aa971f08a48254b353.png

在如此惊艳表现之下,似乎正确识别人类史上首张黑洞照片也不算什么了(doge)。

ba35f089ea4a80825d97df890ca7d66f.png

不过嘛,也不是没有翻车案例。比如,让大模型数数图里有多少个三角形。

1a64eff5e9b985f8e4f9829c411604c7.png

ID为anagh的𝕏网友,给泄露模型和GPT-4o做了个同屏对比:

4o速度很快,给出了错误答案19。

而满血o1花了1分39秒,狂刷一堆token……给出了不同的错误答案:29。

正确答案是24。

c104bfe915d572c85a319f3ef0a35c98.png

这个bug现在已经修复了。不过,有意思的是,这次模型泄露,持续了整整3个小时。

不小心还是故意的?

有网友犀利地点出,这事儿看上去不是“不小心”,而是“精心策划”:

目的是让人们对即将发布的模型有一个预期。

cde2d290862889a30962fc004a72e16a.png

不少网友赞同这样的观点:

奥特曼的目的是测试和炒作。

92b6b5959b35566ed9664eef77f9eda1.png

而由于一切看上去已经部署就绪,甚至有人猜测,o1完整版的正式上线时间就在未来一周之内。

482ee054719f290f48ef8ef923b8e3de.png

值得注意的是,就在这次泄露事件之后,奥特曼马上在𝕏上开始了自己的表演:

8f51184dea54fd439046db44b0d92a78.png

好家伙,都已经吹上o2的风了(还假装上错号……)。

015d92723e282a5c1600f6f2f9334cee.png

至于为什么是这个时间……

那不得赶在Anthropic发布Claude Haiku 3.5之前搞点事嘛(doge)。

ea2d026dd73988e9b577a17f03230881.png

参考链接:
[1]https://x.com/legit_rumors/status/1852625385801859321
[2]https://x.com/koltregaskes/status/1852657291469709626
[3]https://x.com/anaghnairr/status/1852668741751919016

评选征集中

「2024人工智能年度评选」

量子位2024人工智能年度评选已开启报名通道,评选从企业人物产品三大维度设立了5类奖项。

欢迎扫码报名评选!评选结果将于12月MEET2025智能未来大会公布,期待与数百万从业者共同见证荣誉时刻。

046830c649347a861f812ae7ae9fd808.png

点这里👇关注我,记得标星哦~

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值