关于OpenAI o3 的能力——举例说明

最新推荐文章于 2025-06-09 23:54:15 发布

原创最新推荐文章于 2025-06-09 23:54:15 发布

· 297 阅读

·

9

·

版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

AI全栈专栏收录该内容

66 篇文章

订阅专栏

关于 o3 的能力，我们再来看一下其中一项 AI测评 ARC-AGI，来关上后一下它的能力：

ARC-AGI于2019年首次提出，旨在通过一系列抽象和推理任务来测试AI系统的能力。主要是因为传统的技能测量方法并不能有效代表智能，因为它们往往依赖于先前知识和经验，而真正的智能应体现在广泛的适应能力和通用性上。所以，ARC-AGI诞生了，里面的这些任务要求AI识别模式并解决新问题，每个任务由输入输出示例组成。这些任务以网格形式呈现，每个方块可以是十种颜色中的一种，网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出，测试其推理和抽象能力。可以简单的理解成，找规律。

大概就是这样的。

关于 ARC-AGI 过去几代模型的评分如下：

GPT-2 (2019): 0%
GPT-3 (2020): 0%
GPT-4 (2023): 2%
GPT-4o (2024): 5%
o1-preview (2024): 21%
o1 (2024): 32%
o1 Pro (2024): ~50%

但是今天，o3的分数，达到了恐怖的 87.5%。

从0%到5%整整耗时5年的时间，而从5%到87.5%，仅花了半年。

重要是，人类的阈值分数是：85%

我们通往AGI的路上，已经没有任何阻碍了！

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

AGI舰长 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。