一、为什么“AGI 到没到”越来越难判断?
每到新年,AI 圈几乎都会出现同一个问题:
今年 AI 会不会迎来 AGI?
但有意思的是,吴恩达在新年的第一条推文里,并没有预测“今年 AI 会有多厉害”,而是反过来抛出了一个更基础、也更棘手的问题:
我们到底是用什么标准来判断 AGI 已经出现了?
这个问题看似哲学,其实非常现实。
因为现在的 AI,已经出现了一种明显的“错觉现象”:
-
在 benchmark 上分数越来越高
-
在 demo 视频里表现得越来越“聪明”
-
但一旦进入真实世界,就开始暴露出各种不稳定、不可靠的问题
如果连“判断标准”都不清楚,那么讨论 AGI 到底什么时候到来,本身就变成了一件空谈。
二、经典图灵测试:一个被“钻空子”的标准
我们最熟悉的 AGI 判断方式,当然是图灵测试。
如果一个 AI 在纯文本对话中,能让人类评委分不清它是人还是机器,那就算通过。
这个想法在上世纪非常超前,但在今天已经暴露出明显问题。
1️⃣ Loebner Prize 的尴尬现实
在真实的图灵测试竞赛(如 Loebner Prize)中,研究者发现了一个非常反直觉的结论:
最容易骗过评委的方式,并不是“更聪明”,而是“更像人类的缺陷”。
比如:
-
故意打错别字
-
回复时延迟几秒
-
偶尔答非所问、表现出犹豫
这些行为反而会让评委觉得:“嗯,这更像真人。”
也就是说,图灵测试在实践中逐渐变成了一种“人类行为模拟测试”,而不是“智能测试”。
三、现代 AI Benchmark 的另一个问题:刷题
有人可能会说:
那不用图灵测试,用更专业的 benchmark 不就好了?
问题是,现在的 benchmark 也越来越难代表“通用智能”。
常见问题包括:
-
测试集是公开的
-
模型会被专门针对 benchmark 优化
-
分数高 ≠ 能解决真实问题
无论是:
-
GPQA
-
AIME
-
SWE-bench
本质上都存在一个共同问题:
它们测的是“在已知题型上的表现”,而不是“面对未知任务的泛化能力”。
这就像一个学生:
-
连续几年刷同一套模拟题
-
考试成绩非常好
-
但换一套题型立刻失灵
你很难说这是“真正掌握了知识”,还是只是“刷题刷熟了”。
四、吴恩达提出的“图灵-AGI 测试”:把 AI 当成远程员工
正是在这种背景下,吴恩达提出了一个非常“接地气”的新标准:
图灵-AGI 测试(Turing-AGI Test)
测试规则非常简单:
-
给 AI(或人类)一台可以上网的电脑
-
能用浏览器
-
能开 Zoom
-
能收发邮件
-
-
由评委设计一个持续多天的真实工作任务
-
接受培训
-
执行工作
-
接收反馈
-
根据反馈改进
-
-
任务类型类似一个真实的远程岗位
-
客服
-
运营
-
助理
-
技术支持
-
如果 AI 在整个周期内的表现:
与一名熟练的人类员工同样可靠、稳定、可用
那么,就可以认为它通过了测试。
五、这个标准为什么“更接近普通人对 AGI 的直觉”?
这个测试之所以有吸引力,是因为它回答了一个非常现实的问题:
普通人心目中的 AGI 到底是什么?
答案其实很朴素:
能替我干活的 AI。
不是:
-
会背多少定理
-
能解多少竞赛题
-
在论文 benchmark 上拿多少分
而是:
-
能不能独立完成复杂任务
-
能不能长期稳定工作
-
能不能理解反馈并持续改进
一个“通用人工智能”,如果连一份普通的远程工作都无法胜任,那很难说它真的“通用”。
六、从工程角度看:这个测试在考什么?
如果你从工程或系统角度来看,“图灵-AGI 测试”实际上在考察的是一整套能力组合:
1️⃣ 长期任务一致性
-
不是一次性回答
-
而是跨天、跨阶段执行任务
这直接挑战了模型的:
-
状态保持能力
-
目标一致性
2️⃣ 工具使用与环境适应
-
浏览器
-
表单
-
内部系统
-
文档工具
这要求 AI 不只是“语言模型”,而是一个能在真实软件环境中工作的智能体。
3️⃣ 人类反馈闭环
-
接受批评
-
修正行为
-
避免重复犯错
这是目前大多数模型仍然非常薄弱的一环。
七、如果 AI 真通过了这个测试,会发生什么?
你最后那句调侃,其实一点都不夸张:
“那我是不是可以去申请远程岗位,让 AI 干活,我自己领工资?” 😂
如果某一天 AI 能稳定通过这种测试,意味着:
-
大量“远程、流程化、可培训”的岗位会被重新定义
-
企业不再区分“AI 工具”和“AI 员工”
-
工作的核心价值会向:
-
创造性
-
决策责任
-
目标设定
进一步集中
-
那时,“AGI 到没到”这个问题,可能反而不再重要了。
因为你每天都会亲眼看到它在干活。
八、结语:也许 AGI 的判断标准,本就该回到现实
吴恩达提出的“图灵-AGI 测试”,并不完美,也一定会被不断修正。
但它至少做对了一件事:
把 AGI 的讨论,从论文和 benchmark,拉回到了现实工作场景。
真正的 AGI,不是跑分机器,也不是聊天表演者。
而是一个:
能被信任、能被依赖、能长期工作的智能体。
如果哪一天 AI 真的能像一个优秀的远程员工一样工作——
那我们大概也不需要再争论:
“AGI 到底算不算来了?”
因为答案已经写在现实里了。

914

被折叠的 条评论
为什么被折叠?



