关于OpenAI o3 的能力——举例说明

关于 o3 的能力,我们 再来看一下其中一项 AI测评 ARC-AGI,来关上后一下它的能力:

ARC-AGI于2019年首次提出,旨在通过一系列抽象和推理任务来测试AI系统的能力。主要是因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。所以,ARC-AGI诞生了,里面的这些任务要求AI识别模式并解决新问题,每个任务由输入输出示例组成。这些任务以网格形式呈现,每个方块可以是十种颜色中的一种,网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出,测试其推理和抽象能力。可以简单的理解成,找规律。

大概就是这样的。

图片

图片

关于 ARC-AGI 过去几代模型的评分如下:

  • GPT-2 (2019): 0% 

  • GPT-3 (2020): 0% 

  • GPT-4 (2023): 2% 

  • GPT-4o (2024): 5% 

  • o1-preview (2024): 21% 

  • o1 (2024): 32% 

  • o1 Pro (2024): ~50%

但是今天,o3的分数,达到了恐怖的 87.5%。

从0%到5%整整耗时5年的时间,而从5%到87.5%,仅花了半年。

重要是,人类的阈值分数是:85%

图片

我们通往AGI的路上,已经没有任何阻碍了!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

AGI舰长

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值