Ilya重磅发声：那个只要「堆算力」就能赢的时代，已经结束了！

最新推荐文章于 2025-11-29 12:55:56 发布

转载最新推荐文章于 2025-11-29 12:55:56 发布 · 57 阅读

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=MzIyNjM2MzQyNg==&mid=2247715570&idx=1&sn=1f97b4f308fd349f00ee6f1cdb054411&chksm=e9b3bb833ac8bb87d7167f547681994d6e989bc2ca8e259fa6d114b6a2a93288760c95012166&scene=126&sessionid=0

文章标签：

#人工智能

Datawhale干货

采访：Ilya Sutskever，编译：Datawhale

如果不靠堆算力，AI 还能怎么进化？

这是 Ilya Sutskever 在消失于公众视野许久后，带回来的终极拷问。在 SSI 成立后的首次深度访谈中，他抛出了一个反直觉的论断：过去几年我们赖以生存的“大力出奇迹”（Scaling）配方，已经不再灵验了。

原文链接：https://www.youtube.com/watch?v=aR20FWCCjAs

但这并非坏消息。在 Ilya 看来，我们正在进入一个更高级的阶段。他用「15 岁少年的学习能力」和「远古基因的进化锁」作为比喻，重新定义了通往 AGI 的路径——培养一个拥有「通用学习直觉」的大脑。

这是一场信息密度极高的采访，以下是全文翻译。

一、就算到了AI奇点，生活也没那么不一样

Ilya Sutskever：你知道最疯狂的是什么吗？是这一切竟然都是真的。

Dwarkesh Patel：指什么？

Ilya Sutskever：你不觉得吗？所有关于 AI 的这些事，整个湾区正在发生的一切——这不就是科幻小说照进现实了吗？

Dwarkesh Patel：其实另一个疯狂的点在于，「慢起飞」（Slow Takeoff）在体感上竟然这么平淡。按理说，人类拿出了 1% 的 GDP 砸进 AI 里，这听起来本该是惊天动地的大事，但现在的真实感受却是……也就那样。

Ilya Sutskever：事实证明，我们适应新事物的速度太快了。而且，这一切目前还很抽象。什么意思呢？你只是在新闻里看到：某家公司宣布又投了一笔天文数字。但你的感受仅止于此，暂时还没有以其他方式真正“痛”到你身上。

Dwarkesh Patel：要不我们就从这儿开始聊？我觉得这个话题很有意思。你刚才那个观点——从普通人的视角看，就算到了奇点，生活也“没那么不一样”——我觉得这大概率会一直成立。

Ilya Sutskever：不，我不这么觉得。我刚才说“感觉不出太大区别”，指的是那种：“好吧，某家公司又宣布了一个大得难以想象的投资数字。”这种东西大家是无感的，它只是个数字，普通人不知道该怎么处理这种信息。但我认为 AI 的影响迟早会被切身“感受到”。AI 会渗透进整个经济体系，背后有极强的经济动力在推动，那时候冲击力会非常明显。

Dwarkesh Patel：那你觉得这种冲击什么时候来？现在的怪像是：模型看起来比它们实际产生的经济影响要“聪明得多”。

Ilya Sutskever：对，这正是当下这些模型最让人困惑的地方之一。你很难去调和这样一个矛盾的事实：一方面，它们在各种评测（Evals）上表现得非常好——你看看那些题，会说“这题挺难的啊”，但模型答得很溜；另一方面，实际的经济产出却明显滞后。这就很难理解：一个模型怎么可能在某些方面惊才绝艳，转头在另一些场景里却能干出“连犯两次同样错误”这种蠢事？

举个例子：假设你用所谓的 Vibe coding（指不求甚解，靠 AI 感觉写代码）写了段程序，然后遇到一个 Bug。你跟模型说：“帮我修一下这个 Bug。” 模型说：“天呐你说得太对了，确实有个 Bug，我这就给你修。” 结果它给你引入了第二个 Bug。接着你又说：“你现在搞出了个新 Bug。” 它又说：“天呐我怎么会这么干，你又说对了。”然后反手把第一个 Bug 又引回来了。你们俩就这样在这两个 Bug 之间无限循环。

怎么会这样？我也不确定。但这确实暗示着背后有一些奇怪的东西。我有两种解释。第一种解释比较“玄学”（whimsical）：也许 RL（强化学习） 训练让模型变得过于单一目标、过于“一根筋”，导致它虽然在某些方面更敏锐，但在另一些方面反而丧失了全局感知力。正因为这种过度的单向专注，让它在一些基础操作上翻车。

但还有另一种解释：回想大家只做预训练（Pre-training） 的时候，“该用什么数据”这个问题其实已经解决了——答案就是“全都要”。做预训练，你恨不得把所有数据都喂进去，越多越好，所以你不需要纠结“选这份还是选那份”。可一旦开始做 RL 训练，你就不得不思考这个问题了。

大家会说：“我想针对这个能力做一种 RL 训练，针对那个能力做另一种。”据我所知，各家公司都有专门的团队在不停地生产新的 RL 环境，往训练混合（Mix）里加。问题是：这些环境到底是什么？这里面的自由度太大了——你可以设计出千奇百怪的 RL 环境。

其中一种做法，我觉得在现实中是“无意中”发生的，那就是：大家会从评测集（Evals） 中汲取灵感。 “我希望我们要发布的模型，在评测成绩上好看。那我们应该设计什么样的 RL 训练，才能让它在这项任务上拿高分？” 我认为这种事绝对在发生。这可以解释很多现象。如果你把这一点和“模型的泛化能力（Generalization）其实还不够好”结合起来，就能解释我们看到的大部分情况：也就是——为什么评测表现与真实世界表现之间有这么大的落差。而这个“落差的本质到底是什么”，其实我们到今天都没完全想清楚。

Dwarkesh Patel：我很喜欢这个说法：真正的“奖励刷分者”（Reward Hackers）不是模型，而是那些过度关注 Evals 的人类研究员。你刚才提到的这个问题，我觉得可以从两个角度理解。角度一：如果事实证明，“在编程竞赛上达到超人水平”并不会自动让一个模型在实际代码库中更有品味、更会做判断。那对策也许是：你应该扩展环境的集合，不要只测竞赛题，还得测：它能不能为 X 场景做应用？能不能为 Y、Z 场景写出好东西？

角度二：或许是你暗示的那样——“为什么我们要预设：只要在编程竞赛上变成超人，就一定能变成一个广义上更有品味的程序员？” 也就是说，或许正确的策略不是不停往上堆不同的环境，而是想出一种方法，能让模型从一个环境中学习到的东西真正迁移（Transfer）到另一个任务里，从而真正提升“广义能力”。

Ilya Sutskever：我有个类比，也许对理解这个问题有帮助。既然提到了竞赛编程，我们就拿它举例。假设有两个学生。学生 A 决定要成为最强的竞赛程序员。他花了一万小时死磕这一个领域。他刷完了所有的题，背熟了所有的证明技巧，能极其快速、准确地实现各种算法。最后，他确实成了顶尖选手。学生 B 的想法是：“竞赛编程挺有意思的。”他也练了，但只练了大概 100 小时，远少于前者，但成绩依然不错。

你觉得这两个人中，谁未来的职业发展会更好？

Dwarkesh Patel：第二个。

Ilya Sutskever：对。我觉得现在的模型状况，基本就像学生 A——甚至更极端。因为我们会说：“好，我们要让模型在竞赛编程上表现出色，那就把古往今来所有的竞赛题都喂进去。”这还不够，还要做数据增强，造出更多变体，再拿这海量的题去训练。结果就是，你得到了一名非常优秀的“做题家模型”。在这个类比下，事情就直观多了。当你在一个细分领域训练得如此极致，所有算法、所有技巧都烂熟于心、信手拈来时，你就更容易理解：为什么这种训练未必能很好地泛化到其他任务上。

Dwarkesh Patel：那在人类世界里，第二个学生在那 100 小时“微调训练”之前，究竟在做什么？类比到模型上又是什么？

Ilya Sutskever：我觉得那就是所谓的 "It"——那种“灵性”。我本科时就认识过这样的人，所以我知道这种人是真实存在的。

Dwarkesh Patel：有趣的是，我们要区分这个“灵性”和“预训练到底做了什么”。理解你刚才关于预训练数据选择的一个方式是：其实它跟“一万小时练习”并没有那么不同，只是你可以把那一万小时“免费打包”进预训练里，因为这些内容本身就存在于预训练的数据分布中。但也许你在暗示的是：预训练其实并没有带来我们想象中那么强的泛化，它只是单纯依赖了海量的数据规模，但这种泛化机制未必比 RL 高级多少。

Ilya Sutskever：预训练最大的优势在于两点：第一，数据量极其庞大；第二，你不用纠结“选哪些数据”，因为全都要。这些数据非常“自然”，里面包含了人类活动的方方面面：人们的想法、经验，以及大量关于世界的特征。可以说，它是“人类将世界投射到文本上的全息影像”。预训练的目标就是：用巨量数据去捕捉这层投射。

预训练之所以难以被彻底剖析，是因为我们很难弄清楚：模型究竟是以什么方式在利用这堆数据。每当模型犯错时，你都会想：“是不是因为碰巧某个知识点，在预训练数据里支撑得不够？” 这里的“被预训练数据支撑”，其实是个很模糊的说法，我也没法解释得更精准。我不认为人类世界里存在一个能真正对应“预训练”的类比。

二、情绪不是累赘，而是人类决策最高效的方式

Dwarkesh Patel：以下是一些人们提出的关于人类“预训练”的类比。我很想听听你的看法。一种类比是：一个人生命的前 13 到 18 年，这段时间他们未必有经济产出，但他们做的事情让他们理解了世界。另一种类比是：将进化本身想象成一场持续 30 亿年的搜索（Search），最终形成了人类的一生。你觉得这两个算预训练吗？

Ilya Sutskever：我觉得这两者与预训练都有相似之处，预训练试图同时扮演这两个角色。但差异也很巨大。预训练的数据量是天文数字。不知为何，即使人类只摄入了预训练数据的一小部分，经过 15 年的成长，虽然掌握的知识总量远不及 AI，但无论他们掌握了什么，理解都更加深刻。到了那个年纪，人类绝不会犯 AI 会犯的那种低级错误。

还有一点。你问这会不会跟进化有关？也许吧。但在这件事上，我认为进化可能更有优势。神经科学家研究大脑的一种方法是观察脑损伤患者。有些人会出现你想象不到的奇怪症状。我读过一个案例，一个人脑部受损（可能是中风或意外），导致丧失了情感处理能力。他不再能感受到任何情绪。奇怪的是，他依然能言善辩，能解简单的谜题，考试成绩一切正常。但他感觉不到悲伤，感觉不到愤怒，也感觉不到兴奋。结果是，他变得极其不擅长做任何决定。他甚至要花几个小时才能决定穿哪双袜子。他在财务上也开始做极其糟糕的决策。

这说明什么？这说明我们与生俱来的情感，在使我们成为一个合格的“行动主体（Agent）”方面，扮演了关键角色。回到你说的预训练，如果你能充分榨干预训练的价值，或许也能达到类似效果。但这似乎……嗯，很难说预训练是否真能做到这一点。

Dwarkesh Patel：那个“东西”是什么？显然不仅仅是情绪。它似乎是一种类似价值函数（Value Function） 的东西，告诉你任何决定的最终回报（Reward）应该是什么。你认为这东西难道没有隐含在预训练里吗？

Ilya Sutskever：有可能。我只是说，这也并非百分之百确定的。

Dwarkesh Patel：那你怎么看待情绪？机器学习中，情绪的类比是什么？

Ilya Sutskever：它应该是一种价值函数。但我认为目前还没有特别贴切的 ML 类比，因为在当下的做法里，价值函数并没有扮演非常核心的角色。

现在的强化学习（RL）训练方法很朴素：你有个神经网络，给它个问题，说“去解决它”。模型经过成千上万次的动作或思考，生成一个方案。然后给这个方案打分。这个分数会被用来作为信号，去训练你刚才整个轨迹里的每一个动作。这意味着，如果你在做一个长程任务——在你找到最终解法之前，中间过程完全没有学习信号。这就是最简单的 RL 实现方式（比如 o1 和 R1 看起来就是这么做的）。

而价值函数的意思是：“我或许能在中途就告诉你，你做得好还是不好。” 比如下棋，你丢了一个子。你不需要等到下完整盘棋才知道刚才那步走臭了，那一刻你就知道“我搞砸了”。价值函数允许你抄近道（Short circuit），不必等到最后才做决定。假设你在做数学推导或写代码，试图探索某个方向。经过一千步思考后，你得出结论：这方向没戏。在你得出结论的那一刻，你就应该收到奖励信号，并将这个信号回传到一千步之前你决定走这条路的那一刻。也就是说，在你真正想出解决方案很久之前，你就已经告诉自己：“下次遇到类似情况，别走这条路了。”

Dwarkesh Patel：DeepSeek R1 的论文里提到了这点——轨迹空间（Trajectory Space）太大了，很难学习“中间轨迹”和“最终价值”之间的映射关系。而且在编程中，你可能会先有个错误想法，然后回头修改，这很正常。

Ilya Sutskever：这听起来像是对深度学习缺乏信仰啊。当然，这可能很难，但没有什么深度学习做不到的。我预期价值函数会极其有用，而且我完全相信它们将来会被重用，即便现在还不够成熟。我之前提到的那个情感中枢受损的案例，或许表明：人类的价值体系在某种程度上受到情感的调节，而这种调节方式是由进化预先硬编码（Hard-coded） 的。也许这对于人类在社会中有效运作至关重要。

Dwarkesh Patel：这正是我要问的。关于价值函数中的情感因素，确实有一点很有趣：它们既实用，又相当容易理解。

Ilya Sutskever：同意。与我们正在构建的 AI 相比，情感相对简单。它们甚至可能简单到可以用人类能理解的方式描绘出来。但就实用性而言，这里存在一个“复杂性 vs 鲁棒性（Robustness）”的权衡：复杂的东西可能在特定场景非常有用，但简单的东西在更广泛的情况下往往更鲁棒。我们可以这样解读：这些情感主要源自我们的哺乳动物祖先，然后在我们进化成原始人类的过程中略作微调（Fine-tuned）。正因为它们并不复杂，所以在这个与远古截然不同的现代世界中，它们依然能如此有效地帮我们导航。当然，它们也会犯错。比如在这个食物过剩的世界里，我们直觉上的饥饿感不仅没用，反而会误导我们。

三、告别“无脑堆算力”：我们重新回到了“拼脑洞”的时代

Dwarkesh Patel：人们一直在讨论数据扩展、参数扩展和算力扩展。那么，有没有更通用的扩展思路？还存在其他扩展维度吗？

Ilya Sutskever：我认为有一个观点可能切中肯綮。过去的机器学习（ML）基本依赖于人们不断瞎折腾（tinker）：试试这个，试试那个，看看能不能出结果——这是早期的模式。后来，“规模化”（Scaling） 这个洞察出现了。Scaling Laws、GPT-3……突然之间，所有人都顿悟了：我们要把东西做大。这其实是“语言如何影响思维”的绝佳例子。“Scaling”只是一个词，却极具魔力，因为它直接给了大家行动指南——“继续扩大”。

于是问题来了：要扩大什么？预训练（Pre-training），恰恰是最适合规模化的东西。它是一个非常清晰的“配方”（Recipe）。预训练最大的突破，在于它证明了这套配方是稳赚不赔的：只要你把一定量的数据和算力灌进一个规模足够大的神经网络，就会得到好的结果。你也自然会相信：继续放大，效果就会继续提升。这种方法的优势是，公司愿意为它砸钱——因为这是“低风险投入”。相比之下，把资源投入纯研究（Research）要难得多。研究意味着不确定性，而预训练几乎能保证收益。

然而，预训练最终会遇到一个硬上限：数据是有限的。那之后怎么办？要么寻找新的“强化版预训练”方式，要么探索强化学习，或其他完全不同的路径。当算力巨大到一定程度，我们其实又重新回到了“科研时代”。

如果要划时代：2012—2020 是研究时代； 2020—2025 是规模化时代。这几年大家几乎都在喊“继续扩大！再扩大！”。但当规模已经这么大时，你真的相信再扩大 100 倍就能彻底改变一切吗？会有变化，但我不认为仅靠更大规模就能带来根本性的转折。我们正重新回到研究时代，只不过这一次，我们手里握着的是超级计算机。

Dwarkesh Patel：你刚才说到一个概念——“配方”。那我们现在究竟在扩展什么？在预训练里，数据、算力、参数量之间存在像物理定律那样明确的 Power Law 关系。那现在的“新配方”里，这种关系是什么？

Ilya Sutskever：我们已经看到了 Scaling 路径的迁移：从预训练转向强化学习（RL）。如今大家正在扩展的是 RL。从外界讨论看，近期 RL 消耗的算力可能已经超过了预训练，因为 RL 天生“烧算力”——它需要极长的推理过程（Rollouts），而每次迭代的学习增益又很小。我甚至不愿意把它称为“扩展（Scaling）”。我更愿意问的是：“你的做法是最有效率的吗？你能不能找到更经济的方式去利用算力？” 这就回到之前提到的价值函数。如果人们真的掌握价值函数，也许资源利用效率能提高很多。但当你提出一个全新的训练方法时，界限就模糊了：“这到底是 Scaling，还是单纯的科研探索？” 从某种意义上说，我们正在回到从前那种模式：“试试这个，再试试那个……哦，这个有点意思。”

四、人类学车只要10小时，为什么 AI 却要练几亿次？

Dwarkesh Patel：所以问题的核心在于泛化（Generalization）。这里其实包含两个子问题。第一是样本效率（Sample Efficiency）：为什么模型需要比人类多得多的数据才能学会一项能力？第二是意图传递：即使不谈数据量，为什么让模型真正理解“我们想要它做什么”，比让人类理解要困难得多？

对人类来说，学习并不依赖这种死板的、可验证的奖励信号。比如，你现在肯定在带一群研究员。你跟他们交流、展示代码、解释你的思路，他们就能从中学会如何做研究。你并不需要为他们设计一套繁琐的人工流程（schleppy bespoke process），比如设立一个个打分点：“做得好，这是下一章课程”、“这一轮训练不太稳定，扣分”。这两个问题或许是相关的，但我想分别讨论：第二个更像“持续学习”，第一个就是纯粹的“样本效率”。

Ilya Sutskever：关于人类样本效率极高这一点，最可能的解释之一就是进化。进化在视觉、听觉、运动（Locomotion）这些核心能力上，为我们提供了极少量但最关键的“先验知识”（Priors）。

例如，人类的灵巧度远超机器人。即便机器人在模拟环境中可以通过海量训练变得灵巧，但要让机器人在现实世界里像人一样、上手就能掌握一项新技能，几乎是不可能的。你可以说：“哦，因为移动能力对我们的祖先来说太重要了，这种生存压力持续了数百万年，所以我们的神经系统里硬编码了某种不可思议的进化先验。” 视觉也是同理。Yann LeCun 曾说，孩子练十几个小时就能学会开车。确实如此——但那是因为孩子的视觉系统本身已经极其强大了。我记得我五岁时对汽车非常着迷。我可以肯定，那时我的视觉识别能力已经足够支撑驾驶了。但五岁孩子摄入的数据量其实很有限，大部分时间都只待在父母身边，数据多样性很低。这说明视觉能力可能深深植根于进化，而非完全靠后天数据堆砌。

但是，当我们谈到语言、数学、编程时，情况就不同了。这些能力出现得太晚，不太可能是进化预装的。

Dwarkesh Patel：但即使在这些“近期才出现的能力”上，人类似乎依然比模型强。模型虽然在做题分数上已经优于普通人类，但它们在学习新东西的能力上真的更好吗？

Ilya Sutskever：问得好。语言、数学、编程——尤其是数学和编程——恰恰证明了：人类擅长学习，可能并不完全依赖复杂的进化先验，而是因为我们拥有某种更基础、更底层的“通用学习能力”。

逻辑是这样的：如果某项能力（如走路）对祖先很重要，那我们做得好归功于进化先验。但如果人类在一些“近期才被发明的能力”上（如写代码）依然表现出极强的学习效率和鲁棒性，那这就证明：人类天生就拥有一种“通用的、极其高效的机器学习算法”。换句话说：如果连不靠进化积累的领域，人类依然能快速学会，那关键就不在先验知识，而在我们大脑的学习机制本身。

Dwarkesh Patel：那我们该如何理解这种机制？青少年学开车，并不是通过外界给的一个“奖励分数”来学习的，而是通过与环境的互动。样本量很低，却能快速掌握，而且极度鲁棒。有没有机器学习的类比？

Ilya Sutskever：你问青少年司机如何在没有外部教练时刻打分的情况下自我纠正。答案在于：他们自带价值函数。人类有一种极其强大的普遍感知能力。无论这个内在的价值体系是什么——除了一些成瘾行为会导致短路外——它在绝大多数情况下都是非常稳固的。

所以，当一个青少年坐上驾驶座，他不需要别人告诉他，他立刻就能感觉到自己开得稳不稳、哪里处理得不好。他们拥有即时的内在反馈（Internal Feedback）。再加上年轻人本身极快的学习速度，十个小时后，他们自然就成了老司机。

Dwarkesh Patel：我好奇的是，这到底是怎么做到的？为什么对我们来说这么自然，对模型来说却这么难？我们需要怎样重新构思训练方式，才能逼近这种能力？

Ilya Sutskever：这是一个非常好的问题，我对此也有很多想法。但是，很遗憾，我们现在处在一个并非所有机器学习理念都能公开讨论的时代。而这正是那些无法轻易公开讨论的核心机密之一。我相信是有路径可以做到的。人类的存在本身就证明了这种方法的可行性。

当然，可能还存在另一个变量：人类神经元的实际计算能力，可能比我们目前建模的要强很多。如果这是事实，那么我们要模拟它会比想象中更难。但无论如何，我相信这确实指向某种机器学习的根本原理。只是出于某些原因，我无法在这里展开。

五、历史证明：伟大的创新，往往不是靠“烧钱”烧出来的

Dwarkesh Patel：我很好奇。如果你认为我们已经重新进入“科研时代”，那么作为亲历过 2012–2020 那段黄金时期的人，你觉得现在的科研氛围会变成什么样？毕竟，即使在 AlexNet 之后，实验所需的算力也是指数级增长的。现在的“科研时代”是否依然需要庞大的计算资源？还是说我们需要去故纸堆里翻旧论文？

Ilya Sutskever：“规模化时代”（Scaling Era）的一个后果是：规模本身抽干了房间里所有的空气。由于“扩大规模”被证明太有效了，所有人都去做同一件事，最后变成了一个“公司数量远多于创意数量”的局面。硅谷有句老话：“创意不值钱，执行力才是一切。” 这话在大方向上没错。但后来我在推特上看到一句反讽：“如果创意这么廉价，那为什么现在没几个人有创意？” 我觉得这话说得更准。

如果你从“瓶颈”的角度看科研历史：上世纪 90 年代，许多研究者其实有很好的想法，但受限于算力，只能做玩具级的演示，说服不了任何人。那时的瓶颈是算力。而在规模化时代，算力暴涨，瓶颈转移了。

这并不意味着现代科研一定要用到极限规模的算力。举个例子：AlexNet 当年只用了两块 GPU。Transformer 刚问世时的实验，大多也就是在 8 到 64 块 GPU 上跑出来的。按今天的标准，那简直就是几块游戏卡的水平。没有哪篇奠基性的论文是靠动用整个数据中心才写出来的。当然，如果你要构建一个“最强系统”，更多算力肯定有帮助——尤其当大家都只有同一把锤子（Scaling）的时候，锤子的大小就成了唯一的护城河。但科研本身？并不需要无限制的大规模计算。

Dwarkesh Patel：我问这些，是因为你当时就在现场。 Transformer 刚提出时并没有马上爆红。它后来成为行业标准，是因为人们发现它在更大的算力上能持续扩展。那假设 SSI 现在有 50 个不同方向的想法，在没有其他顶尖大厂那种“无限算力”的情况下，你们怎么判断哪个是下一个 Transformer，哪个是死胡同？

Ilya Sutskever：这里我可以澄清一下。其实 SSI 用于纯研究的算力，比外界想象的要多得多。简单的算术题：SSI 虽然“只有”几十亿美元融资，但你要注意，大厂那些巨额的算力预算，绝大部分是被推理（Inference） 吃掉的——也就是服务用户。其次，大厂为了维持产品，需要养庞大的工程团队、销售团队，研究资源会被各种产品需求稀释。反观 SSI，我们的钱几乎全部砸在研究上。更重要的是：如果你在做真正“与众不同”的研究，你真的需要把规模拉满才能证明它是对的吗？我不这么认为。对于验证我们的方向，目前的算力完全足够让我们说服自己。

Dwarkesh Patel：那 SSI 未来怎么赚钱？

Ilya Sutskever：目前我们只专注于研究。商业化的问题，等到技术突破了，答案自然会显现。

六、真正的超级智能不是“全知全能的神”，而是一个“15岁的少年”

Dwarkesh Patel：SSI 的计划仍然是直通超级智能（Straight shot to Superintelligence）吗？

Ilya Sutskever：也许吧。这个策略确实有它的道理——远离市场的喧嚣（Rat race）是一件好事。这能让你避免因短期商业竞争而做出妥协。但在两种情况下我们可能会调整策略：第一，实际研发时间比预期的长；第二，我认为让世界尽早看到强大的 AI，本身就是一种巨大的价值。

Dwarkesh Patel：为什么“直通”会是默认选项？ OpenAI、Anthropic 都强调“迭代部署”，让公众慢慢适应。为什么你觉得闷头憋大招反而更好？

Ilya Sutskever：正反两方面都有道理。支持“直通”的理由是：一旦卷入市场，你就不得不面对艰难的权衡，动作容易变形。但在我看来，“展示 AI” 的价值被低估了。你写一篇论文、发一篇博客，说“AI 未来会如何如何”，大家看完点个头就忘了。但如果你让大家亲眼看到 AI 能做什么，那种冲击力是完全不同的。只有真正接触到实体，人类社会才能真正理解我们要面对的是什么。

Dwarkesh Patel：我同意。而且不仅仅是“理解”，更是为了安全。航空业之所以安全，是因为飞机每天都在飞，事故被发现、被修复，系统才越来越稳健。Linux 之所以稳健，是因为全世界都在用。我不确定 AGI 为什么要成为例外。超级智能的风险远不止“造回形针毁灭世界”这种科幻情节，更多的是我们根本不知道人类会怎么用它，以及它会如何重塑社会。逐步普及似乎是让社会产生免疫力的更安全方式。

Ilya Sutskever：我认为，即使采取“直通”路线，发布过程也必然是循序渐进的。关键在于你迈出门的第一步是什么。

另外，你比其他人更强调“持续学习”（Continuous Learning），这非常关键。我想用一个例子说明“语言如何锁定思维”。有两个词几乎定义了整个行业的认知：AGI 和 预训练。

先说 AGI。这个词是对“狭义 AI”（Deep Blue, AlphaGo）的反动。人们想要一个“通用的”东西，而不是只会下棋的白痴天才。再说预训练。它之所以流行，是因为它确实带来了一种类似通用的能力。但这导致了一个误区：我们试图把 AGI 做成一个“成品”。但如果你仔细想，人类并不是 AGI。人类虽然有基础能力，但我们的知识储备其实很有限。我们真正强的是持续学习。

因此，当我们设想“创造安全的超级智能”时，关键不在于它出厂时“已经掌握了多少技能”，而在于：它在持续学习的曲线上处于哪个阶段？想象一个绝顶聪明、求知欲旺盛的 15 岁少年。他现在懂得不多，但他学习能力极强。如果你部署这样一个系统，它不是作为一个全知全能的神降临，而是作为一个学习者进入社会。它会经历学习、试错、成长的过程。

Dwarkesh Patel：明白了。你定义的超级智能，不是一个“已经学会所有工作”的系统，而是一个“能学会任何工作”的可成长心智。这就引出了两种可能：第一，这个学习算法强到在研发能力上超过了你，于是它开始递归自我进化（Recursive Self-improvement），瞬间起飞。第二，即便没有发生递归进化，只要你把这个模型复制成千上万份，让它们在全球不同岗位上工作、学习，然后把所有经验合并（Merge） 回一个大脑——这本身就是一种“功能性超级智能”。你预期这会引发某种形式的“智能爆炸”吗？

Ilya Sutskever：我认为极有可能看到经济的爆发式增长。业内有两种观点。一种认为只要监管不拦着，经济会疯狂吸纳这些 AI 劳动力。另一种观点认为现实世界的复杂性（法律、物理限制）会拖慢这一进程。但我倾向于认为：AI 的劳动效率极高，只要规模铺开，经济增长会非常惊人。不同国家可能会因为监管松紧不同，出现巨大的增长分化。

七、我们必须教会 AI “关爱众生”

Dwarkesh Patel：在我看来，这是一个极其危险的局面。理论上这完全可能发生：如果一个系统既具备接近人类的学习效率，又能以人类无法做到的方式“融合多个大脑实例”，那它的潜力将远超任何生命形式。如果它真的强大到能建造戴森球，那带来的经济增长将是指数级的。所以关键问题是：SSI 凭什么认为自己有能力安全地掌控这种力量？你们的计划到底是什么？

Ilya Sutskever：我的思维方式确实发生了一些变化。我现在更强调 AI 的逐步部署与提前规划。 AI 的核心难题在于：我们讨论的是尚不存在的系统，很难真正想象它会是什么样子。就像你很难向一个年轻人解释“变老”是什么感觉——你可以尝试描述，但他如果不亲历，就永远无法感同身受。

围绕 AGI 的很多争议，本质上都源于这种想象力的缺失。 AI 和 AGI 的核心问题究竟是什么？就是力量（Power）。当这种力量真正出现时会发生什么？我的结论是：如果大众难以想象，那就必须把它展示出来。

我认为，随着 AI 变得越来越强大，人类的行为会被迫改变。第一，前沿公司与政府会开始合作。我们已经看到 OpenAI 和 Anthropic 在安全上的联动，这在几年前是不可想象的。随着 AI 力量的显现，政府和公众会强烈要求介入。第二，只有当 AI 真的显露力量时，安全观念才会发生质变。目前许多人觉得 AI 还是个“傻瓜”，因为它还在犯错。但等到它展示出真正的肌肉时，所有 AI 公司的安全红线都会收紧。这种谨慎现在还没出现，是因为大家还没被吓到。

第三，企业究竟该构建什么？长期以来，业界都执迷于“能自我改进的 AI”。但我认为，有一个更值得构建的目标，未来每个人都会想要它：那就是：以关怀有感知生命（Sentient Life）为核心的 AI。

我认为，构建一个“关心所有具备感知的生命体”的 AI，比构建一个“只关心人类”的 AI 要容易且自然得多。原因在于：AI 本身未来也将具备感知能力。想想镜像神经元（Mirror Neurons）。人类之所以对动物有同理心，是因为我们在用模拟自身的神经回路去模拟对方——这是理解他者最高效的方式。AI 也会演化出类似的机制。

Dwarkesh Patel：但是，即使你让 AI 关心有感知的生物——实际上，如果你解决了阵营问题（Alignment），我并不确定这是否是最佳标准。未来 AI 的数量将达到数万亿，甚至千万亿。人类在“有感知的生物”中所占的比例将微乎其微。如果目标是让人类继续主导未来文明，这个标准可能有点“稀释”了人类的权重。

Ilya Sutskever：没错，这可能并不是最完美的标准。我想强调三点：

“关爱有感知生命”是一个非常值得纳入考量的安全基线。
如果能提前准备好一份“备选方案清单”，供公司在关键时刻参考，将极具价值。
能力限制（Capping capability）。如果能对最强大的超级智能施加某种硬性的能力天花板，那能解决很多潜在麻烦。虽然现在我还不知道具体怎么做，但在面对“神级”系统时，这是必须考虑的手段。

八、人类的未来：要么进化成“半AI”，要么彻底沦为旁观者

Dwarkesh Patel：那长期来看，这种平衡如何维持？如果世界上充满了体量堪比大陆的计算智能体，我们该怎么办？

Ilya Sutskever：短期内，如果首批强大的系统能做到“关爱众生”，那局面会保持良性。但长期会发生什么？佛家有云：“唯一不变的是变化本身。”政治结构、社会秩序都有生命周期。现在的稳定结构，过个几十年可能就失效了。

所以从长期看，一种可能的（也许是过于乐观的）模式是：每个人都拥有一个专属的 AI 代理。它替你赚钱、替你搞政治博弈、替你处理一切，然后定期给你发一份简报：“老板，这是我这周的战果。”你只需点头：“很好，继续。”问题在于：人类完全退出了参与（Out of the loop）。 这是一种高度危险的局面。

我其实并不喜欢下面这个方案，但它在逻辑上确实是一条可行的路径：那就是人类通过某种类似 Neuralink 的技术，让自己成为“半 AI”。这样一来，AI 理解的，你也能直接理解；AI 经历的，你也能感同身受。信息不再通过低带宽的语言传输，而是全息地传递给人类。在这种情况下，当 AI 处于某种复杂情境中时，人类是真正“在场”的，而不是一个只看简报的旁观者。

九、进化的未解之谜：欲望是如何被硬编码的？

Dwarkesh Patel：我想知道，数百万年前在完全不同的环境中形成的情感，至今仍如此强烈地指导着我们的行为，这是否算是一个“对齐（Alignment）”成功的案例？比如，脑干（低级中枢）有一个指令：“去和成功人士交配。” 大脑皮层（高级中枢）负责理解现代社会中“成功”的定义（是金钱？地位？还是才华？）。但脑干成功地控制了皮层：不管你怎么定义成功，你最终都得听我的去执行。

Ilya Sutskever：这是个深刻的谜题。进化如何编码像“想吃好吃的”这种低级欲望，很容易理解——嗅觉连接多巴胺，简单粗暴。但进化如何赋予我们高级的社交欲望？比如渴望被社会尊重、渴望地位。这些概念在物理世界中并不存在，它们需要大脑进行极复杂的信息处理才能构建出来。而进化竟然能把这种高维度的抽象欲望，硬编码进我们的基因里。它是怎么做到的？

我曾有过一个猜测（虽然大概率是错的）：也许大脑皮层的特定功能区（Region）在物理位置上是固定的。进化可能只是简单地写了一行代码：“当大脑坐标 (X, Y, Z) 的神经元活跃时，释放多巴胺。” 如果这个坐标恰好对应处理“社交信息”的区域，那我们就有了社交欲望。

Dwarkesh Patel：但这个理论有个漏洞：先天失明的人，视觉皮层会被听觉或触觉接管；甚至有人切除了一半大脑，功能区发生了大迁移，但他们依然有正常的社交欲望。

Ilya Sutskever：正是。大脑的可塑性（Plasticity）否定了“固定坐标”的理论。如果那个理论是真的该多好，事情就简单了。可惜不是。这依然是一个未解之谜。进化究竟用什么语言在基因里写下了“去追求社会地位”这条指令？我们还不知道。

十、SSI 的差异化与未来推演

Dwarkesh Patel：SSI 的独特之处到底在哪里？其他公司也在做，为什么你觉得你们能成？

Ilya Sutskever：很简单，我有几个关于“理解与泛化”的核心假设，我认为它们是正确的。SSI 就是为了验证这些假设而存在的实验。我们是一家纯粹的“研究型公司”。我相信，随着 AI 变得足够强大，所有公司的技术路径最终会趋同（Converge）。就像登山，到了山顶，路只有那几条。大家最终都会意识到：必须建立某种可靠的沟通方式，必须确保第一个超级智能是关爱众生的、尊重民主的。

Dwarkesh Patel：你对这类系统（像人类一样学习、最终超越人类）的时间预测是？

Ilya Sutskever：大概 5 到 20 年。

Dwarkesh Patel：既然最终大家会趋同，为什么先发优势不会让一家公司垄断一切？

Ilya Sutskever：历史经验告诉我们，即便一家公司率先突破，其他公司也会迅速跟进，推出类似产品，把价格打下来。更重要的是专业化分工（Specialization）。即便有一个通用的学习算法，但一家公司可能在法律 AI 上积累了巨量数据和经验，另一家在医疗 AI 上登峰造极。竞争总是偏爱专业化。哪怕是在超级智能时代，我也倾向于认为会有多个专精不同领域的巨头并存，而不是一个全知全能的单一霸主。

十一、终极问题——什么是“研究品味”？

Dwarkesh Patel：最后一个问题：什么是“研究品味”（Research Taste）？你参与了 AlexNet、GPT-3 等所有历史性突破。你是如何产生这些想法的？

Ilya Sutskever：对我而言，指引我穿越迷雾的北极星，是AI 的“美学”（Aesthetics）。这意味着要以一种“正确的方式”去思考人类的本质。

举个例子：人工神经元的概念直接源自大脑，这是一个极具美感的想法。为什么？虽然大脑有沟回、有各种复杂的生化反应，但我们直觉上认为那些只是细节，真正起作用的是海量的连接和局部的学习规则。再比如分布式表征（Distributed Representation）——大脑不是把记忆存在某个格子里，而是通过连接权重的变化来学习。这不只是模拟，这捕捉到了智能的灵魂。

这种品味，就是倾向于寻找那些简洁、优雅、且符合生物学直觉的方案。丑陋的、拼凑的东西（Ugand/Ugliness）是没有容身之处的。如果一个想法缺乏这种美感，我就不会感到踏实。

这种“自上而下的信念”（Top-down belief）至关重要。当你做实验时，数据常常会打你的脸。如果完全依赖数据，你会被一个微小的 Bug 误导，以为这个方向是错的，从而放弃。但如果你有这种信念，你就会对自己说： “不，逻辑上它必须是对的。肯定是哪里代码写错了，我要把它找出来，而不是换方向。” 正是这种源自对大脑、对数学之美的深刻直觉，支撑着你熬过那些至暗时刻。