【编者按】过去五个月,作者尝试用大模型来帮忙处理播客制作,比如润色自动转录稿、挑选可分享片段、协作写文章等。但这段“AI 助手实验”带来的并非彻底颠覆,反而是深深的失望。
我们之所以雇人,不是因为他们第一次就完美,而是因为他们能越做越好。作者认为当前大模型缺乏「持续学习能力」,因为无法在短期内胜任白领工作。
作者的这篇文章在 HN 上引起了不少热议,有人认为 AI 能做出一次惊艳的演示和能成为一个可靠的产品完全是两码事。
AI 能搞定 80% 的流程,但剩下的 20% 的异常足以让整个系统崩溃。
原文链接:https://www.dwarkesh.com/p/timelines-june-2025
作者 | Dwarkesh 责编 | 梦依丹
出品 | 程序人生(ID:coder_life)
“事情总是比你想的发生得慢,但一旦发生,又比你以为的快得多。”
经济学家 Dornbusch 的这句老话,也许正是我们面对 AGI(通用人工智能)时应有的心态。
在我的播客中,我跟嘉宾们就“通用人工智能(AGI)何时到来”聊过很多次。有人认为需要 20 年,有的则认为只要 2 年。截至 2025 年 6 月,我的观点是这样的。
持续学习(Continual learning)
有些人认为,即便当前的 AI 技术发展就此停滞,它所带来的经济影响也将远超当年的互联网革命。对此,我并不认同。今天的大语言模型(LLM)确实已经非常惊艳,但之所以很多财富 500 强企业尚未用它们来彻底改造业务流程,并不是因为管理层保守僵化,而是因为——让 LLM 像真正的“员工”一样完成任务,依然非常困难。问题的根源,在于这些模型缺乏一些至关重要的能力。
在我的播客里,我一直自认为是走在 AI 应用前沿的人。过去几个月,我花了上百个小时,试图为播客的后期流程打造一些基于大模型的小工具。但说实话,这段经历反而让我对 AGI 的到来时间线,变得更加保守了。
比如,我让模型帮我润色自动转录稿,使其更像人类语言;从访谈中挑出可发推的金句;或者一段段与我共写文章。说到底,这些都是语言输入-语言输出的任务,范围小、闭环快、复杂度也不高——理论上应该是 LLM 的拿手好戏。但它们的表现,我顶多只能打个 5 分(满分 10 分)。别误会,这已经很厉害了。但问题并不在“完成度”,而在“成长性”。
大语言模型的最大短板,是它们不会随着使用次数的增加而变得更聪明。它们没有“持续学习”的机制,无法像人一样从错误中吸取教训,逐步熟悉你的偏好,也无法在长期合作中打磨出默契。你试图通过改写 prompt 来“教它进步”,但这更像是雕花命令,而不是教育。
真正有用的人类,并不是一开始就比模型聪明,而是能持续积累上下文、反思错误,并在细节中不断优化。我的剪辑师们之所以变得越来越出色,并不是靠什么算法环境训练出来的,而是在日常工作中不断感知:哪些内容观众爱听?哪些剪辑风格我更喜欢?他们自己在“调教”自己。而模型,做不到这点。
我们当然可以幻想,未来的 AI 会进化出某种“有机”的自我强化学习流程:我给出模糊的高阶反馈,它便能自动设计一组训练任务,自主练习并改进欠缺技能。但从今天的现实看,这仍是一道极难的题,不仅技术难度高,而且很可能难以在各种任务之间泛化。所以我很难相信,这会在未来几年内实现。
目前,LLM 在一次对话过程中,确实能表现出一定的“短期学习”。比如我跟模型一起写文章,刚开始它的段落写得一塌糊涂,我会重写并指出问题。几段之后,它的建议就慢慢靠谱起来了。但这种对我风格的理解,一旦对话结束,就彻底丢失了。
有人提出用“长上下文窗口”解决这个问题,例如像 Claude Code 那样,每 30 分钟压缩一次对话摘要,实现“滚动记忆”。但我对此并不乐观。在代码或文本处理这种高度结构化、格式清晰的任务里,这种策略或许能奏效。但若涉及更模糊的任务——比如如何理解用户的品味,或为何某种风格有效——把这些只可意会的经验浓缩成几句话,很容易失真。
想象一下:你想靠一份冗长的学习笔记,教别人吹萨克斯管。就算 Claude Code,也常常会忘掉我们之前精心调教的某个优化策略,只因为那一段关键解释没被写进压缩摘要。
这也就是为什么,我不太同意我播客嘉宾 Sholto 和 Trenton (两人都任职于 Claude)的一个观点。下面这段话引自 Trenton:
“即便 AI 的发展完全停滞(就算你觉得现在的模型能力参差不齐,还不具备通用智能),但它的经济价值已经如此巨大,而且为各类白领工作任务收集数据也足够简单,因此,就像 Sholto 指出的那样,我们理应看到这些岗位在未来五年内被自动化。”
如果从今天起,AI 的发展完全按下暂停键,我认为真正被取代的白领岗位,可能连 25% 都不到。
没错,确实有很多子任务可以实现自动化。比如,从技术层面讲,Claude 4 Opus 完全能帮我改写播客的自动转录稿。但因为它无法积累上下文、无法理解我的偏好,更别提随着合作时间不断优化表现,我最终还是会选择雇一个真人来完成这项工作。
哪怕未来有更多的数据积累,如果持续学习这道坎没迈过去,我们所处的状况不会有本质改变。AI 或许可以“还行”地完成若干子任务,但它永远像个“新手外包”——你给它什么,它就完成什么,做完也不会变得更熟练。而这,根本不足以让它真正成为团队中的正式一员。
虽然这让我对未来几年出现所谓“颠覆性 AI”不再抱太大幻想,但从长远来看,我反而比以前更乐观。
一旦持续学习真正实现,AI 模型的价值将迎来断崖式跃升。也许我们不一定会看到某种“软件奇点”——即 AI 快速进化、自己造出更强的继任者,但我们极可能见证一个更广义的“智能爆炸”:AI 被部署到每一个岗位、每一个行业、每一台机器上,并像人类一样在实战中不断学习、调整、进步。
但和人类不同的是,每一个 AI 的“所学所悟”,都可以同步给所有副本。所以,从某种意义上说,一个会持续学习的 AI,等于在“并行”学习世界上所有工作技能。那时,它或许不需要更多新算法,仅靠这种大规模经验聚合,就已具备“准超级智能”的能力。
当然,我不指望哪天能看到 OpenAI 举行盛大的直播,宣布“持续学习问题被完全攻克”这种爆炸性新闻。现实情况是,各大实验室都在竞争,它们不会等到成果完善后才发布,而更可能在实现早期阶段就推出“半成品”——比如某种“测试时训练”的雏形,让我们先尝到一点苗头。
也正因此,我相信在真正的大突破来临前,我们会陆续看到一系列“小预警”——信号不会缺席,只是别太早把它们当成终点。
AI 智能体能帮我们操作电脑到什么程度?
也许我们得现实一点
最近,我的播客采访了 Anthropic 公司(知名 AI 研究机构)的两位研究员,Sholto Douglas 和 Trenton Bricken。他们大胆预测:到明年年底,我们或许就能用上真正可靠的“电脑操作智能体”了。
我们现在已经有一些类似的智能体工具,但说实话,它们用起来还很笨拙。而这两位研究员所设想的,是完全不同层面的东西。
他们描绘的场景是:到明年年底,你或许可以直接告诉AI:“去帮我报税。”
然后,这个智能体就会自动开始工作:它会翻阅你的邮件、亚马逊订单和 Slack 聊天记录,跟需要发票的联系人来回沟通,整理你所有的收据,判断哪些是业务支出,对于那些模棱两可的情况会主动征求你的意见,最后帮你填好报税单并提交给税务部门。
我为什么对此持保留意见
说实话,我对此有点怀疑。
我并非 AI 研究员,不敢在技术细节上与他们争辩。但根据我有限的了解,我有几个理由不太看好这个预测:
任务链条太长,验证周期也长。
想象一下,AI 智能体需要连续操作两个小时,我们才能知道它最终做得对不对。这种漫长的“执行-反馈”周期,让训练和调试变得异常缓慢。更不用说,操作电脑本身就需要处理大量的图像和视频信息,这比处理纯文本要消耗多得多的计算资源。这两点结合起来,无疑会拖慢研发的进度。
我们缺少海量的“电脑操作”训练数据。
我很认同一篇关于“自动化软件工程”文章里的观点:“过去十年,我们能训练出强大的语言模型,是因为互联网上有取之不尽的文本数据,这足以破解自然语言处理的难题。但这并不足以让模型成为可靠、能干的智能体。”
这就像,即便我们有今天的算力,想用 1980 年全世界所有的文本数据来训练 GPT-4,数据量也是远远不够的。
当然,我也不是实验室里的人。或许仅靠文本训练,模型就已经能很好地理解不同软件界面的运作方式了。又或者,强化学习的效率已经高到不需要太多数据。但我目前还没看到任何公开证据,能让我相信模型在这个新领域突然变得不那么“数据饥渴”了。
还有一种可能:模型本身就是个优秀的前端程序员,能自己生成无数个虚拟的软件界面来“左右互搏”、自我练习。关于这点,请看我下面要说的。
一个看似简单的创新,“落地”也远比想象中要难。
就拿 DeepSeek 在他们 R1 论文里提到的强化学习方法来说,高层次的思路听起来很简单。然而,从 GPT-4 发布到 o1(DeepSeek 的先进模型)问世,却花了整整两年时间。
我这么说,绝不是觉得 R1/o1 的工作简单——我知道这背后需要海量的工程、调试和对无数失败方案的舍弃。恰恰相反!我的意思是,你看,就连「训练模型去解决有明确答案的数学和编程问题」这样一个相对清晰的目标,都需要花费如此巨大的精力才得以实现。
那么,要去解决「操作电脑」这个模式完全不同、数据又少得多的、棘手得多的问题,我们很可能也低估了其中的难度。
但我们必须承认,AI 真的在“思考”了
好了,冷水泼得差不多了。我也不想当那种不知足的人,就像有些论坛上的“键盘侠”,就算你送他一只会下金蛋的鹅,他还是会整天抱怨鹅叫得太吵。
我们得看到积极的一面。
读过 o3 或者 Gemini 2.5的“推理过程记录 ”你会发现:模型不再是单纯的“吐词造句”的工具,它们是真的在进行推理!
它会把一个复杂问题分解开,仔细琢磨用户的真实意图,跟自己的“内心独白”进行对话,一旦发现思路走偏了,还会自我纠正。
我们现在似乎已经对此习以为常了,觉得:“哦,机器嘛,当然会进行一堆思考,想出一堆主意,然后给出一个聪明的答案。机器不就是干这个的吗?”
但这种习以为常本身,就有点不可思议。
为什么有些人会过于悲观?
我认为,一部分人之所以对 AI 过于悲观,是因为他们没有在 AI 最擅长的领域里,去体验那些最顶尖的模型。
举个例子,你给 Claude Code(Anthropic 的编程模型)一个非常模糊的需求,然后坐着等上十分钟,它就能“零样本”(zero-shot,即没有经过专门训练)地给你写出一个可以运行的应用程序。
这种体验,简直可以用“疯狂”来形容。
它是怎么做到的?你可以从技术层面去解释,聊什么神经网络电路、训练数据分布、强化学习等等。但最直接、最简洁也最准确的解释其实很简单:它背后驱动的,是一个初级的通用智能(Baby General Intelligence)。
到了这个阶段,你内心多少会升起一个激动又复杂的感叹:
“我们真的在造出有智能的机器了。”
那么,我的预测是什么?
坦白说,我的预测范围很广,充满不确定性。我始终相信“概率分布”这个概念,这也意味着,即使你认为「2028 年可能出现失控的超级智能(ASI)」的概率不高,为它做好准备,依然是值得的。
但如果非要我给出那种“五五开”的时间节点预测,我会这么看:
预测一:AI 能像能干的总经理一样,独立完成小公司的全套报税工作
目标任务:浏览邮件、核对账单、催收发票、自动分类报销、提交税表,全流程搞定。
我的预测时间:2028 年。
在我看来,“AI 做报税”对于电脑使用智能体来说,就像 GPT-4 之于语言任务一样,是个标志性的里程碑任务。
虽然我们现在仍处于“GPT-2 级别”的阶段,模型要完成这种任务还面临几个大挑战:缺乏足够的多模态训练数据、交互链条长、回报信号稀疏……但好消息是,基础模型已经越来越聪明了,而且投入算力与人才的规模也远超以往。如果这些变量继续发力,也许 4 年足以跨越这道坎。
当然,2026 和 2027 年我们也许会看到一些酷炫 demo,但我预计,在实际工作中完全替代人工、长时间稳定运行的“AI 报税员”,大概率要等到 2028 年。
预测二:AI 可以像人类白领一样,边干边学,越干越好
目标场景:比如我雇一个 AI 剪辑师,6 个月后,它对我的风格、偏好、频道调性、观众口味的理解和适配能力,能媲美一个经验丰富的真人。
我的预测时间:2032 年。
虽然现在还没有一种明确的方法,能让大模型实现真正的在线持续学习,但——别忘了,7 年前 GPT-1 才刚刚问世,而今天的模型已经能写代码、写稿件、做 PPT。
所以在接下来的 7 年里找到一种“AI 能在实践中持续进化”的机制,并不是什么离谱的想法。一旦我们突破这层限制,可能迎来的将是智能的大爆炸。
也就是说:要么就在这个十年内发生,要么就遥遥无期。
为什么这么说?
因为过去十年,AI 的进步靠的是“规模驱动”——训练量、算力投入几乎每年翻几倍。但这种模式不可能无限延续:
芯片性能快到物理极限
电力和成本已逼近上限
模型训练占用 GDP 的比例无法继续扩大
2030 年之后,AI 的主要进步将不得不依赖算法层面。而在深度学习这个范式下,低垂的果实已经所剩无几。
所以,如果 AGI 没能在这个十年爆发,那么每年实现它的边际概率可能会快速下降——当然,这不等于“泡沫破灭”,只是节奏放缓、突破更难。
换句话说:要么我们很快见证奇迹,要么就得耐心等上更久。
这也意味着,如果我所做的那些“概率对半”的预测,最终落在了进展更慢的那一端,我们大概率会继续生活在一个相对平稳的世界里——至少直到 2030 年代,甚至 2040 年代,才会真正迎来 AI 的深刻重塑。
但请注意——在所有其他可能性中,哪怕我们再怎么清醒地看到 AI 的当下局限,我们也必须为真正疯狂的结果做好准备。
推荐阅读:
曝印度工程师一人兼4份全职,还拿下年薪20万美元Offer:请病假的时候,竟在GitHub上给别家写代码?
被停职后“复仇”发难,篡改系统权限导致近200万损失,31岁程序员获刑7个月!
📢 AI 产品爆发,但你的痛点解决了吗?
2025 全球产品经理大会
8 月 15–16 日
北京·威斯汀酒店
互联网大厂、AI 创业公司、ToB/ToC 实战一线的产品人
12 大专题分享,洞察趋势、拆解路径、对话未来。
立即扫码领取大会PPT
抢占 AI 产品下一波红利