近年来,AI 发展迅速,尤其是大语言模型领域,GPT-4.5、Claude 3.7、Gemini 2.0 等模型展现了强大的理解和推理能力。但 AI 真的具备通用智能(AGI)了吗?
新测试发布,AI 纷纷翻车
近日,由 François Chollet 共同创立的 Arc Prize 基金会推出了一项全新的 AI 测试——ARC-AGI-2,专门用来衡量 AI 的真正智能水平,而不是单纯依赖大规模训练数据的记忆能力。结果让人意外,当前主流 AI 模型的表现都相当惨淡。
根据 Arc Prize 公布的排行榜,OpenAI 的 o1-pro 和 DeepSeek 的 R1 等“推理型”AI 模型在 ARC-AGI-2 上的得分只有 1% 到 1.3%。而 GPT-4.5、Claude 3.7 Sonnet 和 Gemini 2.0 Flash 等强大的非推理模型,得分也只有 1% 左右。相比之下,Arc Prize 基金会让 400 多名人类参与测试,平均正确率达到 60%,远远超过 AI。
ARC-AGI-2:不让 AI 走捷径
ARC-AGI-2 延续了 ARC-AGI-1 的设计思路,核心是考察 AI 在陌生问题上的适应能力。测试以谜题的方式呈现,AI 需要从一组不同颜色的方块中找出视觉规律,并生成正确的“答案”网格。这次测试还引入了一个关键指标——效率。
François Chollet 认为,ARC-AGI-1 的一个大问题是 AI 可以通过“暴力计算”来解决问题,比如投入大量算力进行穷举搜索。而 ARC-AGI-2 通过调整测试方式,逼着 AI 依靠真正的推理和模式识别能力,而不是单纯靠算力硬堆。
AI 不能只比谁算得快,还要看谁学得高效
Arc Prize 基金会联合创始人 Greg Kamradt 在文章中提到:“智能不只是能不能解题、能不能拿高分,更重要的是 AI 学会并应用这些能力的效率。问题不只是 AI 能不能学会解决任务,更在于它的学习成本和效率。”
这一理念在 ARC-AGI-2 的评分体系中得到了体现。例如,OpenAI 的 o3 模型在 2024 年 12 月刚刚打破 ARC-AGI-1 纪录,得分达到 75.7%。但到了 ARC-AGI-2,它的低功耗版本 o3 (low) 只拿到 4% 的得分,而且每道题的计算成本高达 200 美元。这说明,高算力 AI 并不等于高智能 AI。
AI 测试标准迎来新变革,行业呼唤更难的挑战
AI 发展太快,很多传统测试方法已经被“攻破”,行业迫切需要新的标准来衡量 AI 的通用智能。Hugging Face 联合创始人 Thomas Wolf 近期表示,当前 AI 领域仍然缺乏足够的测试,来评估 AI 在创造力、泛化能力等方面的表现。
为了推动 AI 技术向更高效、更智能的方向发展,Arc Prize 基金会还发布了 Arc Prize 2025 竞赛,挑战开发者在 ARC-AGI-2 上达到 85% 的准确率,同时每道题的计算成本不能超过 0.42 美元。这一标准远高于当前 AI 模型的水平。