关于 o3 的能力,我们 再来看一下其中一项 AI测评 ARC-AGI,来关上后一下它的能力:
ARC-AGI于2019年首次提出,旨在通过一系列抽象和推理任务来测试AI系统的能力。主要是因为传统的技能测量方法并不能有效代表智能,因为它们往往依赖于先前知识和经验,而真正的智能应体现在广泛的适应能力和通用性上。所以,ARC-AGI诞生了,里面的这些任务要求AI识别模式并解决新问题,每个任务由输入输出示例组成。这些任务以网格形式呈现,每个方块可以是十种颜色中的一种,网格的大小可以从1x1到30x30不等。参与者需要根据给定的输入生成正确的输出,测试其推理和抽象能力。可以简单的理解成,找规律。
大概就是这样的。
关于 ARC-AGI 过去几代模型的评分如下:
-
GPT-2 (2019): 0%
-
GPT-3 (2020): 0%
-
GPT-4 (2023): 2%
-
GPT-4o (2024): 5%
-
o1-preview (2024): 21%
-
o1 (2024): 32%
-
o1 Pro (2024): ~50%
但是今天,o3的分数,达到了恐怖的 87.5%。
从0%到5%整整耗时5年的时间,而从5%到87.5%,仅花了半年。
重要是,人类的阈值分数是:85%
我们通往AGI的路上,已经没有任何阻碍了!