为什么我认为 AGI 不会马上到来？

最新推荐文章于 2025-11-24 17:11:39 发布

转载最新推荐文章于 2025-11-24 17:11:39 发布 · 115 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzkxNjI3ODAwNw==&mid=2247574992&idx=2&sn=d4cb7c8bf0fcfa6c26acb9c78a67f2ae&chksm=c06bbe9e5c1116e48cb8d01b45d8cf64e61ef098558ef5bd74855610aebb7cbaf8ee882cfd00&scene=126&sessionid=0

文章标签：

#agi

【编者按】过去五个月，作者尝试用大模型来帮忙处理播客制作，比如润色自动转录稿、挑选可分享片段、协作写文章等。但这段“AI 助手实验”带来的并非彻底颠覆，反而是深深的失望。

我们之所以雇人，不是因为他们第一次就完美，而是因为他们能越做越好。作者认为当前大模型缺乏「持续学习能力」，因为无法在短期内胜任白领工作。

作者的这篇文章在 HN 上引起了不少热议，有人认为 AI 能做出一次惊艳的演示和能成为一个可靠的产品完全是两码事。

AI 能搞定 80% 的流程，但剩下的 20% 的异常足以让整个系统崩溃。

原文链接：https://www.dwarkesh.com/p/timelines-june-2025

作者 | Dwarkesh 责编 | 梦依丹

出品 | 程序人生（ID：coder_life）

“事情总是比你想的发生得慢，但一旦发生，又比你以为的快得多。”

经济学家 Dornbusch 的这句老话，也许正是我们面对 AGI（通用人工智能）时应有的心态。

在我的播客中，我跟嘉宾们就“通用人工智能（AGI）何时到来”聊过很多次。有人认为需要 20 年，有的则认为只要 2 年。截至 2025 年 6 月，我的观点是这样的。

持续学习（Continual learning）

有些人认为，即便当前的 AI 技术发展就此停滞，它所带来的经济影响也将远超当年的互联网革命。对此，我并不认同。今天的大语言模型（LLM）确实已经非常惊艳，但之所以很多财富 500 强企业尚未用它们来彻底改造业务流程，并不是因为管理层保守僵化，而是因为——让 LLM 像真正的“员工”一样完成任务，依然非常困难。问题的根源，在于这些模型缺乏一些至关重要的能力。

在我的播客里，我一直自认为是走在 AI 应用前沿的人。过去几个月，我花了上百个小时，试图为播客的后期流程打造一些基于大模型的小工具。但说实话，这段经历反而让我对 AGI 的到来时间线，变得更加保守了。

比如，我让模型帮我润色自动转录稿，使其更像人类语言；从访谈中挑出可发推的金句；或者一段段与我共写文章。说到底，这些都是语言输入-语言输出的任务，范围小、闭环快、复杂度也不高——理论上应该是 LLM 的拿手好戏。但它们的表现，我顶多只能打个 5 分（满分 10 分）。别误会，这已经很厉害了。但问题并不在“完成度”，而在“成长性”。

大语言模型的最大短板，是它们不会随着使用次数的增加而变得更聪明。它们没有“持续学习”的机制，无法像人一样从错误中吸取教训，逐步熟悉你的偏好，也无法在长期合作中打磨出默契。你试图通过改写 prompt 来“教它进步”，但这更像是雕花命令，而不是教育。

真正有用的人类，并不是一开始就比模型聪明，而是能持续积累上下文、反思错误，并在细节中不断优化。我的剪辑师们之所以变得越来越出色，并不是靠什么算法环境训练出来的，而是在日常工作中不断感知：哪些内容观众爱听？哪些剪辑风格我更喜欢？他们自己在“调教”自己。而模型，做不到这点。

我们当然可以幻想，未来的 AI 会进化出某种“有机”的自我强化学习流程：我给出模糊的高阶反馈，它便能自动设计一组训练任务，自主练习并改进欠缺技能。但从今天的现实看，这仍是一道极难的题，不仅技术难度高，而且很可能难以在各种任务之间泛化。所以我很难相信，这会在未来几年内实现。

目前，LLM 在一次对话过程中，确实能表现出一定的“短期学习”。比如我跟模型一起写文章，刚开始它的段落写得一塌糊涂，我会重写并指出问题。几段之后，它的建议就慢慢靠谱起来了。但这种对我风格的理解，一旦对话结束，就彻底丢失了。

有人提出用“长上下文窗口”解决这个问题，例如像 Claude Code 那样，每 30 分钟压缩一次对话摘要，实现“滚动记忆”。但我对此并不乐观。在代码或文本处理这种高度结构化、格式清晰的任务里，这种策略或许能奏效。但若涉及更模糊的任务——比如如何理解用户的品味，或为何某种风格有效——把这些只可意会的经验浓缩成几句话，很容易失真。

想象一下：你想靠一份冗长的学习笔记，教别人吹萨克斯管。就算 Claude Code，也常常会忘掉我们之前精心调教的某个优化策略，只因为那一段关键解释没被写进压缩摘要。

这也就是为什么，我不太同意我播客嘉宾 Sholto 和 Trenton （两人都任职于 Claude）的一个观点。下面这段话引自 Trenton：

“即便 AI 的发展完全停滞（就算你觉得现在的模型能力参差不齐，还不具备通用智能），但它的经济价值已经如此巨大，而且为各类白领工作任务收集数据也足够简单，因此，就像 Sholto 指出的那样，我们理应看到这些岗位在未来五年内被自动化。”

如果从今天起，AI 的发展完全按下暂停键，我认为真正被取代的白领岗位，可能连 25% 都不到。

没错，确实有很多子任务可以实现自动化。比如，从技术层面讲，Claude 4 Opus 完全能帮我改写播客的自动转录稿。但因为它无法积累上下文、无法理解我的偏好，更别提随着合作时间不断优化表现，我最终还是会选择雇一个真人来完成这项工作。

哪怕未来有更多的数据积累，如果持续学习这道坎没迈过去，我们所处的状况不会有本质改变。AI 或许可以“还行”地完成若干子任务，但它永远像个“新手外包”——你给它什么，它就完成什么，做完也不会变得更熟练。而这，根本不足以让它真正成为团队中的正式一员。

虽然这让我对未来几年出现所谓“颠覆性 AI”不再抱太大幻想，但从长远来看，我反而比以前更乐观。

一旦持续学习真正实现，AI 模型的价值将迎来断崖式跃升。也许我们不一定会看到某种“软件奇点”——即 AI 快速进化、自己造出更强的继任者，但我们极可能见证一个更广义的“智能爆炸”：AI 被部署到每一个岗位、每一个行业、每一台机器上，并像人类一样在实战中不断学习、调整、进步。

但和人类不同的是，每一个 AI 的“所学所悟”，都可以同步给所有副本。所以，从某种意义上说，一个会持续学习的 AI，等于在“并行”学习世界上所有工作技能。那时，它或许不需要更多新算法，仅靠这种大规模经验聚合，就已具备“准超级智能”的能力。

当然，我不指望哪天能看到 OpenAI 举行盛大的直播，宣布“持续学习问题被完全攻克”这种爆炸性新闻。现实情况是，各大实验室都在竞争，它们不会等到成果完善后才发布，而更可能在实现早期阶段就推出“半成品”——比如某种“测试时训练”的雏形，让我们先尝到一点苗头。

也正因此，我相信在真正的大突破来临前，我们会陆续看到一系列“小预警”——信号不会缺席，只是别太早把它们当成终点。

AI 智能体能帮我们操作电脑到什么程度？

也许我们得现实一点

最近，我的播客采访了 Anthropic 公司（知名 AI 研究机构）的两位研究员，Sholto Douglas 和 Trenton Bricken。他们大胆预测：到明年年底，我们或许就能用上真正可靠的“电脑操作智能体”了。

我们现在已经有一些类似的智能体工具，但说实话，它们用起来还很笨拙。而这两位研究员所设想的，是完全不同层面的东西。

他们描绘的场景是：到明年年底，你或许可以直接告诉AI：“去帮我报税。”

然后，这个智能体就会自动开始工作：它会翻阅你的邮件、亚马逊订单和 Slack 聊天记录，跟需要发票的联系人来回沟通，整理你所有的收据，判断哪些是业务支出，对于那些模棱两可的情况会主动征求你的意见，最后帮你填好报税单并提交给税务部门。

我为什么对此持保留意见

说实话，我对此有点怀疑。

我并非 AI 研究员，不敢在技术细节上与他们争辩。但根据我有限的了解，我有几个理由不太看好这个预测：

任务链条太长，验证周期也长。

想象一下，AI 智能体需要连续操作两个小时，我们才能知道它最终做得对不对。这种漫长的“执行-反馈”周期，让训练和调试变得异常缓慢。更不用说，操作电脑本身就需要处理大量的图像和视频信息，这比处理纯文本要消耗多得多的计算资源。这两点结合起来，无疑会拖慢研发的进度。

我们缺少海量的“电脑操作”训练数据。

我很认同一篇关于“自动化软件工程”文章里的观点：“过去十年，我们能训练出强大的语言模型，是因为互联网上有取之不尽的文本数据，这足以破解自然语言处理的难题。但这并不足以让模型成为可靠、能干的智能体。”

这就像，即便我们有今天的算力，想用 1980 年全世界所有的文本数据来训练 GPT-4，数据量也是远远不够的。

当然，我也不是实验室里的人。或许仅靠文本训练，模型就已经能很好地理解不同软件界面的运作方式了。又或者，强化学习的效率已经高到不需要太多数据。但我目前还没看到任何公开证据，能让我相信模型在这个新领域突然变得不那么“数据饥渴”了。

还有一种可能：模型本身就是个优秀的前端程序员，能自己生成无数个虚拟的软件界面来“左右互搏”、自我练习。关于这点，请看我下面要说的。

一个看似简单的创新，“落地”也远比想象中要难。

就拿 DeepSeek 在他们 R1 论文里提到的强化学习方法来说，高层次的思路听起来很简单。然而，从 GPT-4 发布到 o1（DeepSeek 的先进模型）问世，却花了整整两年时间。

我这么说，绝不是觉得 R1/o1 的工作简单——我知道这背后需要海量的工程、调试和对无数失败方案的舍弃。恰恰相反！我的意思是，你看，就连「训练模型去解决有明确答案的数学和编程问题」这样一个相对清晰的目标，都需要花费如此巨大的精力才得以实现。

那么，要去解决「操作电脑」这个模式完全不同、数据又少得多的、棘手得多的问题，我们很可能也低估了其中的难度。

但我们必须承认，AI 真的在“思考”了

好了，冷水泼得差不多了。我也不想当那种不知足的人，就像有些论坛上的“键盘侠”，就算你送他一只会下金蛋的鹅，他还是会整天抱怨鹅叫得太吵。

我们得看到积极的一面。

读过 o3 或者 Gemini 2.5的“推理过程记录 ”你会发现：模型不再是单纯的“吐词造句”的工具，它们是真的在进行推理！

它会把一个复杂问题分解开，仔细琢磨用户的真实意图，跟自己的“内心独白”进行对话，一旦发现思路走偏了，还会自我纠正。

我们现在似乎已经对此习以为常了，觉得：“哦，机器嘛，当然会进行一堆思考，想出一堆主意，然后给出一个聪明的答案。机器不就是干这个的吗？”

但这种习以为常本身，就有点不可思议。

为什么有些人会过于悲观？

我认为，一部分人之所以对 AI 过于悲观，是因为他们没有在 AI 最擅长的领域里，去体验那些最顶尖的模型。

举个例子，你给 Claude Code（Anthropic 的编程模型）一个非常模糊的需求，然后坐着等上十分钟，它就能“零样本”（zero-shot，即没有经过专门训练）地给你写出一个可以运行的应用程序。

这种体验，简直可以用“疯狂”来形容。

它是怎么做到的？你可以从技术层面去解释，聊什么神经网络电路、训练数据分布、强化学习等等。但最直接、最简洁也最准确的解释其实很简单：它背后驱动的，是一个初级的通用智能（Baby General Intelligence）。

到了这个阶段，你内心多少会升起一个激动又复杂的感叹：

“我们真的在造出有智能的机器了。”

那么，我的预测是什么？

坦白说，我的预测范围很广，充满不确定性。我始终相信“概率分布”这个概念，这也意味着，即使你认为「2028 年可能出现失控的超级智能（ASI）」的概率不高，为它做好准备，依然是值得的。

但如果非要我给出那种“五五开”的时间节点预测，我会这么看：

预测一：AI 能像能干的总经理一样，独立完成小公司的全套报税工作

目标任务：浏览邮件、核对账单、催收发票、自动分类报销、提交税表，全流程搞定。
我的预测时间：2028 年。

在我看来，“AI 做报税”对于电脑使用智能体来说，就像 GPT-4 之于语言任务一样，是个标志性的里程碑任务。

虽然我们现在仍处于“GPT-2 级别”的阶段，模型要完成这种任务还面临几个大挑战：缺乏足够的多模态训练数据、交互链条长、回报信号稀疏……但好消息是，基础模型已经越来越聪明了，而且投入算力与人才的规模也远超以往。如果这些变量继续发力，也许 4 年足以跨越这道坎。

当然，2026 和 2027 年我们也许会看到一些酷炫 demo，但我预计，在实际工作中完全替代人工、长时间稳定运行的“AI 报税员”，大概率要等到 2028 年。

预测二：AI 可以像人类白领一样，边干边学，越干越好

目标场景：比如我雇一个 AI 剪辑师，6 个月后，它对我的风格、偏好、频道调性、观众口味的理解和适配能力，能媲美一个经验丰富的真人。
我的预测时间：2032 年。

虽然现在还没有一种明确的方法，能让大模型实现真正的在线持续学习，但——别忘了，7 年前 GPT-1 才刚刚问世，而今天的模型已经能写代码、写稿件、做 PPT。

所以在接下来的 7 年里找到一种“AI 能在实践中持续进化”的机制，并不是什么离谱的想法。一旦我们突破这层限制，可能迎来的将是智能的大爆炸。

也就是说：要么就在这个十年内发生，要么就遥遥无期。

为什么这么说？

因为过去十年，AI 的进步靠的是“规模驱动”——训练量、算力投入几乎每年翻几倍。但这种模式不可能无限延续：

芯片性能快到物理极限
电力和成本已逼近上限
模型训练占用 GDP 的比例无法继续扩大

2030 年之后，AI 的主要进步将不得不依赖算法层面。而在深度学习这个范式下，低垂的果实已经所剩无几。

所以，如果 AGI 没能在这个十年爆发，那么每年实现它的边际概率可能会快速下降——当然，这不等于“泡沫破灭”，只是节奏放缓、突破更难。

换句话说：要么我们很快见证奇迹，要么就得耐心等上更久。

这也意味着，如果我所做的那些“概率对半”的预测，最终落在了进展更慢的那一端，我们大概率会继续生活在一个相对平稳的世界里——至少直到 2030 年代，甚至 2040 年代，才会真正迎来 AI 的深刻重塑。

但请注意——在所有其他可能性中，哪怕我们再怎么清醒地看到 AI 的当下局限，我们也必须为真正疯狂的结果做好准备。