OpenAI推出PaperBench

  每周跟踪AI热点新闻动向和震撼发展 想要探索生成式人工智能的前沿进展吗?订阅我们的简报,深入解析最新的技术突破、实际应用案例和未来的趋势。与全球数同行一同,从行业内部的深度分析和实用指南中受益。不要错过这个机会,成为AI领域的领跑者。点击订阅,与未来同行! 订阅:https://rengongzhineng.io/

OpenAI最近又悄悄放了个“大招”——推出了一个名叫PaperBench的新基准测试,直接对当下AI能力来了波“灵魂拷问”。别以为这只是个普通的benchmark,这玩意儿一上线,就让很多人清醒地认识到:AI离吹的那么神还差得远。

这次的PaperBench测试,并不是让AI看看论文、讲讲道理,而是直接让AI“硬刚”顶会论文的完整复现。不是读读摘要,不是复制代码片段,而是要真刀真枪地把ICML 2024精选的20篇论文,从头到尾——代码、实验、结果,全都亲自重现一遍。

OpenAI这次搞得相当细。为了看清AI到底卡在哪儿,他们把这些论文拆成了8,316个可评分的小任务,等于给每个环节都设了“监控”,精准掌握AI是在哪儿摔了跟头。

结果令人谦卑(甚至有点心凉):目前表现最好的AI组合,是Claude 3.5 Sonnet加上一套开源辅助工具,也只拿到了21.0%的复现分数。也就是说,即便是市面上最强的AI,也只能完整复现五分之一的前沿研究论文。

OpenAI这波还请了顶尖的机器学习博士生来做同样的任务,结果证明:人类依然是这个领域的王者。这种“人类基准线”是非常必要的参考,让那21%的得分不再是抽象的数字,而是有了真正的对照。

而PaperBench并不只是学术游戏。这套评估体系已经被纳入多家巨头的AI安全架构里用来评估“自主能力”:OpenAI的Preparedness Framework、Anthropic的Responsible Scaling Policy、以及Google DeepMind的Frontier Safety Framework都在用。因为如果AI能自主复现甚至扩展研究,那离“自己提升自己”的AI就不远了,风险和机遇也随之而来。

为了保证公正性,OpenAI还请来了这些论文的原作者参与打分标准的制定,同时用大模型自动评审这些复现成果,并另设基准来检测这些“AI评委”的可靠性。整个流程可以说是严丝合缝。

PaperBench也加入了一个越来越细分的AI评估生态圈,像BioLP-bench专测AI懂不懂生物实验流程,MLE-bench评AI做ML工程的能力,∞Bench则看AI能不能处理超级长的上下文。这种细分测试,逐渐取代了那种一锅炖的通用评分方式,能更真实地刻画出AI的实际能力边界。

最关键的发现是:AI在需要深层理解、创造性判断、模糊信息处理的任务上,依然抓瞎。复现科研论文,不是看说明书装机器,而是要理解原理、猜测实现细节,还要在Bug里摸出一条生路。这种事,目前AI还真的不太行。

不过,这次OpenAI也很给力地把PaperBench开源了。所有的代码、打分标准,全都扔上了GitHub,鼓励大家共同改进、透明监督。

一句话总结:PaperBench不仅立下了AI科研能力的起点线,也摆明了AI和人类在复杂任务上的差距有多大。这是一个看得见的挑战,同时也是通往真正有用AI的必经之路。接下来,大家就等着看,AI要花多长时间才能真正突破这21%的关卡。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值