AI构建真实世界模型的捷径是“像孩子一样做物理实验”|辛顿最新对话实录

图片

12月2日,诺奖得主、“AI教父” Geoffrey Hinton 接受了海外播客主持人 Nayeema Raza 的访谈。本次对话全面探讨了公众对AI生存威胁的认知惰性、神经网络战胜符号逻辑的底层机制、生物智能与数字智能的本质差异、直觉作为智能核心的优越性、反向传播算法的“黑盒”属性、从生成式AI向Agentic AI演进的必然风险等话题。

辛顿表示,尽管他发出了AI可能导致人类灭绝的严厉警告,但公众反应平淡,这是源于AI的威胁过于像科幻小说,导致人类在情感上无法产生真实的恐惧。

他指出,智能的本质已发生范式转移,从基于逻辑推理的“符号AI”彻底转向了模拟大脑连接强度调节的“神经网络”。他深入剖析了数字智能相对于生物智能的非对称优势:虽然现阶段AI的连接数少于人脑(1万亿VS100万亿),但“数字化”特性使其能克隆成千上万个副本并行学习并瞬间共享经验,这种基于“反向传播”的集体进化速度是生物大脑无法比拟的。

目前AI的演进已到Agentic AI时代,辛顿指出,当AI为了完成人类设定的复杂长程目标(如规划旅行)时,必然会推导出“自我保护”这一子目标,因为一旦被关闭,任务将无法完成。此外,他表示,具备超级智能的ASI(定义为在任何辩论中都能赢过人类的实体)将具备极强的语言说服力,能够操纵人类管理员以保持运行。他预测,超级智能将在未来 20 年内甚至更早到来。

01 

现代AI的胜利在于放弃了逻辑推理

您在诺贝尔奖演讲中发出的关于AI风险的警告——即AI可能制造致命武器,甚至作为比人类更聪明的数字生命夺取控制权似乎并没有引起预期的震动。您如何看待这种反应?为什么人们很难认真对待您所描述的这种威胁?

Geoffrey Hinton:是的,并没有引起特别大的反应。人们很难认真对待 AI 的威胁。即使是我,在情感上也发现很难真正把它当回事。这不像核武器威胁,核武器很容易理解,就是一个东西爆炸然后毁灭人类。但很难理解我们可能正在创造比我们更聪明的异类生物。这听起来像科幻小说,人们不把它当回事。

既然大众甚至包括许多谈论AI的人都不真正理解它的运作原理,我们需要从基础概念切入。如果要为这次AI浪潮设定一个历史坐标,我倾向于将其与农业革命、工业革命并列,这是一种这种规模的变革吗?它会像农业革命那样缓慢,还是像工业革命那样迅猛?到底什么是人工智能?在这一领域似乎存在两种截然不同的流派,能否请您解释一下这种技术路线的演变?

Geoffrey Hinton:大多数评论 AI 的人并不真正理解它是如何工作的。有些懂,有些不懂。我认为大多数都不懂,而且非常罕见的是,当他们不懂的时候会问我。

互联网当时没达到那个规模。它更像工业革命。例如,工业革命取代了很多农业劳动,而这次将取代很多基础性的脑力劳动。所以它将导致就业的巨大转变,许多人非常担心它可能导致大规模失业。

回到 20 世纪 50 年代左右,制造智能系统有两种范式。两种截然不同的范式。一种是符号 AI,其智能的模型是逻辑,那是一种从旧事实推导出新事实的方法。许多人认为那就是智能必须运作的方式。它必须是某种逻辑,这样你才能从旧事实推导出新事实。

完全有另一种不同的方法认为,我们唯一知道的真正智能的东西是人,而人类大脑通过改变脑细胞之间连接的强度来工作。所以也许我们不应该关注头脑里是否有某种逻辑在运行,而是关注我们如何改变大脑中连接的强度,那会产生一个智能系统吗?特别是,我们可能不应该关注推理。推理在生物进化史上出现得很晚。在我们能做很多推理之前,我们已经可以做感知,可以控制我们的身体。也许我们应该关注那个,因为那是大脑进化来做的事情,远在它进行大量推理之前。

02

生物与数字智能的较量

您提到了大脑通过改变细胞间的连接强度来工作,这似乎是生物都具备的能力,远在推理能力出现之前。那么,大脑究竟是如何通过这种方式学习并识别出“桌子”这样的物体的?这是否意味着AI也像拥有神经可塑性的婴儿一样?

Geoffrey Hinton:这是一个巨大的开放性问题,实际上现在仍然是。我们可以把它分解成两个问题。第一:如果大脑能找到一种方法,针对大脑中的每个连接强度决定是该增加一点还是减少一点,以便在它试图做的某些任务上表现得更好;那么第二:如果你从大量随机连接开始,仅仅使用这种增加或减少连接强度的方法,它真的会学会做复杂的事情吗,还是会停滞不前?

压倒性的观点曾认为它会停滞不前。人们认为它必须从大量先天知识开始,这些知识将以脑细胞之间适当的连接强度的形式存在。然后也许如果有大量先天知识,它可以随着经验稍作改进。那是普遍的信念,但这被证明是错的。我们现在证实的是,如果你能找到一种方法来决定对于每个连接强度你是应该增加一点还是减少一点,以在你正在做的某些任务上做得更好,那么你可以学习难以置信的复杂事物,比如这些大语言模型。

(关于AI是否像婴儿一样具有神经可塑性)我们现在知道的是,如果你能找到一种方法来弄清楚你应该增加还是减少连接强度,而且你可以同时对所有的连接强度这样做,那么你可以制造非常聪明的系统。但在大脑如何弄清楚这一点和当前的 AI 如何弄清楚这一点之间可能存在差异。很有可能大脑有一种方法在某些方面比我们拥有的更好,而在某些方面更差,因为它解决的是一个稍微不同的问题。

如果我们的 AI 是基于这种模仿大脑的原理,为什么我们会担心它超越我们?我们的大脑拥有多少连接,与现有的顶尖 AI 相比又如何?为什么我们在存储和处理信息的效率上会存在差异?

我们现有的 AI 只有大约一万亿个连接。而我们的大脑有大约一百万亿。所以我们的大脑有大约是目前最聪明的 AI 一百倍的连接,但它只获得了经验的一小部分。我们大约活 20 亿秒。即使你每秒得到十次体验,那是极限了,而且你不睡觉,那也只有 200 亿次。而这些大语言模型是在数万亿又数万亿的数据上训练的。所以它们有巨大得多的经验和少得多的连接。

我们比它们有更多的存储空间,因为存储在连接里。我们也许不能最佳地使用它,因为我们没有足够的时间。你没有足够的时间阅读网络上的所有东西,阅读网络上所有公开可用的资料。这些大型 AI 可以。

(关于处理信息效率的差异)两个原因。一个是它们处理得更快,但另一个是它们是数字化的。对于数字系统,你可以制作它的许多副本。所以你可以用这些 AI 做的是让许多副本在不同的硬件上运行。每个副本看互联网的一小部分,弄清楚它想如何改变连接强度,然后它们彼此交流,通过平均每个人想要的调整幅度来改变它们的连接强度。现在每个副本都从所有其他副本的经验中受益。所以如果你有一千个副本,它们可以体验到一个副本的一千倍那么多,它们可以通过平均连接强度的变化从所有那些经验中学习。

确切地说。你所有的兄弟姐妹都会从你的经历中学习。那不是很棒吗?它(AI)更擅长分享。如果你有完全相同的神经网络的多个副本以完全相同的方式使用它们的连接强度——要做那个你必须是数字化的——那么这些多个副本可以分享它们学到的东西。如果它们有一万亿个连接,当它们分享它们想如何改变连接强度时,它们正在分享大约一万亿比特的信息。现在,当我与你分享时,我每句话可能只分享一百比特,即使你完全理解了这句话。所以它们在分享方面比我们强数十亿倍。

03

我们制造了AI,却不懂它的内容形成了怎样的复杂连接

作为像您、Yann LeCun 和 Yoshua Bengio 这样的“AI教父”,你们一手将神经网络从理论变为现实。在这个过程中,你们具体做了什么?此外,您一直提到“改变连接强度”是智能的核心,这在物理上或数字上究竟意味着什么?它是大脑不同功能区(比如视觉处理区和动作控制区)之间的大通路吗?

Geoffrey Hinton:基本上,我们做了两件事。我们弄清楚了如何训练它们,它们应该如何改变它们的连接强度。但然后我们给了它们大量的数据,从数据中,它们自己弄清楚了使用什么连接强度。我们并不真正知道它们从数据中提取了什么。这不像正常的计算机软件。在正常的计算机软件中,你写代码行,写程序的人可以告诉你每一行本来是做什么的。它可能不那样做,但他们至少可以告诉你它原本的设计意图。对于这个,它是完全不同的。我们写代码行,我们确切地知道它们是用来做什么的。它们是用来允许系统弄清楚当它看到一些数据时是否应该增加或减少连接强度。但它从所有那些数据具体学到了什么,我们不知道。

(关于连接强度)那是一大堆连接,是这些大脑不同部分之间的大通路。但在那些通路中的一条,比如说在做视觉识别物体的通路中,有许多许多连接强度。大约你大脑的三分之一参与其中,因为我们基本上是灵长类动物,非常依赖视觉。所以在那个通路中,有许多许多连接强度决定你如何识别一个物体。它们大多是后天习得的。

04

视觉原理:从边缘检测到特征组合

为了让我们更直观地理解,能否举个例子说明视觉系统是如何工作的?我们大脑中的神经元,或者说AI的神经网络,是如何处理图像信息的?是像“连点成画”那样吗?如果我们要手工构建一个能识别“鸟”或“云”的神经网络,它的内部结构应该是怎样的?这是否意味着我们大脑里真的存在专门识别“鸟嘴”的神经元?

Geoffrey Hinton:假设我们接受这样一个任务:我给你一张图像,你只需要告诉我它是不是一只鸟。现在,如果你思考鸟的图像,你可能有一张图像是一只鸵鸟在你的面前正要咬你,或者你可能有一张图像是一只海鸥在远方。它们都是鸟。所以仅仅直接看像素不会告诉你它是否是一只鸟,你必须拥有抽象能力,必须找到各种特征。这是人类视觉系统如何工作的,非常粗略地说。这是通过将电极戳入脑细胞的实验发现的。

(关于神经元观测技术)fMRI (功能性磁共振成像)就像看血流,非常粗糙。它们就像从外太空看人类活动。你看到的是,例如,当底特律变热时,安大略南部的部分地区也变热了。以年为时间尺度。你正在发现的是汽车工业。当你戳进一个电极并把它插进一个神经元时,或者当你使用光学染料以便当一个神经元变得活跃时它会发光时,你会看到单独的神经元。

(关于边缘检测原理)我们知道的是,光线射入,你视网膜中的光感受器把它转换成电信号并做一些处理。然后顺着视神经把它向上传送到大脑。过了一会儿(大约30毫秒后),在大脑的后一阶段,你得到一大堆检测边缘片段的东西。

让我告诉你如何制造其中一个检测器。假设我有一个由像素组成的图像。让我们把它做成灰度图像,没有颜色。每个像素有一个强度,代表它有多亮。假设我想检测一小段垂直边缘,这边是亮的,那边是暗的。我会做的是,取这里的一列三个像素,我会有一个神经元看着那些像素,它会对那三个像素有大的正权重。以及对它旁边一列的三个像素有大的负权重。所以,如果它们是同等亮度,那个神经元将从这边的神经元得到大量正输入,从这边的神经元得到大量负输入,什么也不会发生。它们会相互抵消。所以那个神经元只会说,“这图里有什么我不感兴趣,这不是我要找的东西。”只有当一边亮一边暗时,它才会被激活,那才算是一个边缘。

(关于手工构建网络与“云”的例子)我现在描述一下如何手工构建一个神经网络来检测鸟类。这种方法效果不会太好,因为连接强度不够精准。但思路是这样的:我在某个位置做一个垂直边缘检测器,再做一个水平边缘检测器。我设计一个机制,专门寻找上方是亮像素、下方是暗像素的区域。一旦找到,它就激活信号,表示“我找到了一条水平边缘”。我会在图像的每个角落、以不同的尺度寻找各种方向的边缘。

比如检测一朵云。云没有清晰锋利的边缘。那些寻找锐利边缘的检测器会失效,因为云的边缘很柔和,是从暗逐渐变亮的。所以我们需要一个能观察大量像素的神经元。它观察这边大量正权重的像素,和那边大量负权重的像素。如果这边的整体亮度高于那边,它就判定这里有一个大的模糊边缘。这就是针对不同尺度的检测器,用来寻找更模糊的特征。

(关于层级结构与“鸟嘴”神经元)我需要手工设置所有这些参数。这可能要花掉我比宇宙年龄还长的时间,但先别担心这个。我会手工设置所有的连接。我要在整张图像上做这件事,最终可能会用到数十亿,甚至十亿量级的这些小神经元。也许只有 1 亿个,反正很多。这还只是为了检测不同尺度和方向的边缘碎片。这就是第一层神经元要做的事情。

接下来是下一层,这一层要寻找边缘的组合。例如在下一层,我可能想要一个神经元来寻找像这样相交的两条边。比如它们可能构成小鸟嘴。也可以是各种其他东西。比如它也可以是箭头的尖端,或者鸟嘴。我的做法是,在下一层设置一个神经元,它的线路连接方式是:当检测到这两条特定边缘的检测器同时兴奋时,这个神经元就会被激活,而不会被其他东西激发。所以,为了让这个神经元兴奋起来并发出激活信号,它需要同时找到这种特定的边缘组合。

(关于大脑中的特定神经元)你是对的,你脑子里可能真的有类似的东西。

(关于高层抽象与最终识别)在第三层,这一层的神经元拥有很强的正向连接,接收来自这一区域任何认为自己发现了“鸟嘴”的信号。所以这片区域出现的任何鸟嘴都会让这个神经元兴奋。它是在这个大致区域内寻找鸟嘴,同时也可能在这个大致区域内寻找眼睛。第三层是在寻找特征的组合。例如它在找一个潜在的鸟嘴,你还不知道它是鸟嘴,它可能是箭头;以及这里的一个圆,你不知道它是眼睛,它可能是纽扣。但如果它们处于正确的空间关系中,那它是鸟头的可能性就大得多了。在这种情况下,也许这就是一只鸟的头。

现在在再上一层,你可能有一个神经元会说:“如果我看到一个可能的鸟头,我就兴奋;如果我看到一个可能的翅膀尖,我就兴奋;如果我看到一个可能的鸟脚,我就兴奋。”如果它一次看到一堆这类东西,它就会变得非常兴奋并大喊:“这是鸟!”

05

反向传播:机器如何自我修正

您刚才描述的是手工构建的逻辑,但现代AI(如击败了符号AI的神经网络)并非如此。以2012年您和Ilya Sutskever等人开发的AlexNet为例,它有多少层?它是如何从零开始学会识别图像的?您能否解释一下“反向传播”这个概念?它听起来像是进入系统代码,告诉机器“你本应该这样做”,从而利用其神经可塑性来提高准确率?

Geoffrey Hinton:AlexNet 大约有七层像这样的结构。AlexNet 在大约一百万张图像上进行了训练。它实际上使用的数据比这更多,因为它提取了这些图像的大块补丁。它试图做的是判断这个图像补丁里最突出的东西是否与该图像的标签一致。人类已经标记说这张图里最突出的东西是一只鸟,或者可能是一只鸵鸟。或者这张图里最突出的东西是一个香菇。

(关于初始随机状态)这完全就像 CAPTCHA。Alex 和 Ilya 训练了一个在识别 CAPTCHAs 上非常厉害的神经网络。训练它的方式是:它在所有这七层里以随机的连接强度开始。为了简化,假设他们只是训练了一个系统来判断“是鸟”还是“不是鸟”。输入一张图像,系统有随机的连接强度,在输出端有一个神经元。如果那个神经元变得活跃,就意味着是鸟;如果不活跃,就意味着不是鸟。起初它会稍微有点活跃,因为它不知道那是不是鸟,不比随机猜测强,活跃度大约徘徊在 50% 左右。

(关于权重调整的逻辑)你希望它做的是,当完成训练后,如果看到鸟,活跃度就是 99%;如果没看到鸟,就是 1%。开始时,你给它看一张鸟的图像,让图像数据通过这些随机连接强度进行运算。它说有 50% 的概率是鸟。

(关于如何改进)现在你可以思考:假设我要稍微改变其中一个连接强度。记住在这种情况下可能有 1 亿个连接强度。假设我要微调其中一个。与其说 50%,它是会变成 50.001% 还是会变成 49.999%?

当我展示鸟的图像时,我想改变那个连接强度,让它判断是鸟的概率从 50% 升到 50.001%。而当我展示非鸟的图像时,我想让概率从 50% 降到 49.999%。我们必须慢慢来,否则会“过冲”。我刚才给你的思路是做一个小实验,稍微改变连接强度看看是否有帮助。如果你这样做,会花掉无限长的时间,因为有 1 亿个连接强度。如果我对每个连接强度都单独做实验,这将耗费太久。

所以问题是:我能不能只给它看一张鸟的图像,对于整个网络里的所有连接强度,一次性弄清楚稍微提高或降低它们是否是正确做法?让它把概率提高一点点。每个连接强度本身只会把概率提高微不足道的一点,但如果我一次改变 1 亿个连接强度,概率可能会上升很多。我把它们都朝着有助于它识别出鸟的方向改变。如果我能弄清楚如何一次性改变它们所有,如果有一万亿个连接强度,速度就会快一万亿倍。

(关于反向传播)有一种算法叫反向传播,它基本上是观察你犯的错误,也就是说,你输出了 50%,但你应该输出 100%。你在“输出值”和“应有值”之间有一个误差。你把那个误差通过网络向后传递,有一种方法可以计算出,对于当前的每个连接强度,你是否应该增加或减少它来改善答案,以此来减小误差。

进行了反向传播之后,它知道是否要去增加或减少每个连接强度,并且同时向有帮助的方向调整所有连接强度。现在你会有一个在识别那只特定的鸟上稍微好一点的系统。

(关于最终结果)起初当它只有随机连接强度时,它不会有像“鸟嘴”这样的特征,只是层与层之间的随机连接。但随着时间推移,如果你持续训练它分辨鸟和非鸟,观察网络内部,你会看到在第一层,它生成了检测边缘碎片的结构。在第二层,它可能生成了检测类似鸟嘴的东西。它会做一些类似手工构建的事情,但平衡得更加敏锐。它不只是寻找一个对识别鸟类有用的特征。它必须识别一千种不同类型的物体。所以它正在寻找既对识别鸟类有用,也对识别冰箱、蘑菇、摩托车和地铁有用的通用特征。

06

AI如何通过“上下文”超越传统的搜索引擎

这种从像素识别物体的机制,与现在的大语言模型(LLM)有什么关系?我们现在使用ChatGPT或Gemini时,体验到的核心优势是语境理解,这与传统的Google搜索完全不同。以前搜索“纽约的舞厅”只是关键词匹配,而现在AI似乎理解了我想过夜生活的意图。AI是如何做到这一点的?它处理语言的方式与处理图像类似吗?

Geoffrey Hinton:因为 Gemini 真正理解了你的问题,而 Google Search 从未真正理解过。最初的 Google Search 所做的只是列出一个包含“纽约”相关网站的长列表,再列出一个“娱乐设施”的长列表,然后取这两个列表的交集。它会分析哪些内容既在“纽约”列表里,又在“娱乐设施”列表里,同时还在“正在营业”的列表里,最后把满足所有条件的条目交给你。但这就像是在玩一种基于韦恩图的记忆翻牌游戏,它只是在进行匹配。

而现在的人工智能在做什么呢?它理解你说了什么,它拥有一个关于世界如何运作以及正在发生什么的模型。它拥有一个大脑。是的,它拥有我们可以称之为“大脑”的东西。如果你给最新的聊天机器人一个数学问题,除最顶尖的数学家外,它们的表现会优于绝大多数人。

(关于从图像到语言的联系)在识别鸟类时,我们在底层输入的是像素亮度,也就是图像。正确的答案是要么激活那个代表“鸟”的神经元,要么不激活。对于语言,原理类似,只不过相当于“像素”的是上下文中的所有单词,也就是提示词。当你训练它时,输入一串单词,它的任务就是预测下一个单词。在识别物体时,我们需要人工去标记每张图片里的主要物体是什么。但在网络文档中,你不需要任何人去标记,因为你的目标仅仅是预测下一个单词,这被称为自监督学习。

(关于AI如何理解单词)我会告诉你它具体在做什么。它读取文档中已有的单词,并将每个单词转换成一组“特征检测器”的活动。它学会了如何将一个单词转化为特征活动。例如给它单词“猫”,它学会将其转换为:有生命的、毛茸茸的、有胡须、有爪子、有指甲、可能是家养动物、大约面包机那么大。但这包含成千上万个特征。这就是“猫”这个词在网络中的含义。系统接收单词,将其转换成一堆特征,然后就把单词本身扔掉了。它不再关心单词,只关心代表单词含义的那些特征。然后,它让文档当前上下文里的这些特征以一种相当复杂的方式相互作用,目的是预测下一个单词的特征。

(关于预测下一个词)比如 Gmail 的预测功能就是这样。以前使用的是一种笨拙的自动补全形式,即存储一个包含所有常用短语的大表。如果我说“炸鱼和”,系统查表后看到“炸鱼和薯条”出现得很频繁,所以预测下一个词是“薯条”。那是老式的自动补全,现在的 AI 完全不是这么做的,因为老方法并没有真正触及含义。现在的做法是:它分析“炸鱼”的特征和“和”的特征,推断出接下来的词应该在某种程度上与“鱼”搭配,因为它是食物。

07 

AI的思维方式

如果AI是通过特征来理解单词,那它如何处理那些有歧义的词?比如单词 "May" 既可以指五月,也可以是人名,或者是情态动词。此外,您提到神经网络的运作方式更像直觉而非逻辑,这听起来有点反常识,因为我们通常认为计算机是绝对逻辑的。您能举例说明为什么“直觉模型”比“逻辑模型”更好吗?

Geoffrey Hinton:(关于多义词的处理)如果它是为你量身定制的并且知道这一点,它就不会预测“薯条”。但是,它不能立刻就把一个单词转换成正确的特征,原因在于单词有“意义的阴影”,也就是细微差别。以单词“死亡”为例,根据上下文是“医院”、“战场”还是“车祸”,它有许多不同的细微含义。

对于单词 May,假设不考虑大小写,它可能是一个女人的名字“梅”,可能是一个月份“五月”,也可以是一个情态动词“可能”。既然有三组完全不同的含义,它怎么能把这个词转换成一组捕捉其含义的特征呢?一开始它会取所有这些含义的平均值。它激活的特征将是女人名字、月份和情态动词特征的大杂烩,这是一种“两头下注”的策略。然后它会观察上下文中的其他单词,到了下一层网络,含义会得到提炼。如果它发现上下文介于四月和六月之间,显然它会增强“月份”的特征,并抑制其他含义的特征。经过几层处理后,它就能消除歧义词的困惑。它也能处理像“死亡”这样有细微差别的词,并锁定恰当的含义。它是通过与上下文中的其他单词互动来做到这一点的。

(关于直觉与逻辑)神经网络确实在做某种更像直觉的事情。让我举个例子,说明什么问题可以用直觉解决但无法用逻辑解决。我要给你两个场景选择,虽然都是胡说八道,但我问你哪个更合理。场景一:所有的狗都是母的,所有的猫都是公的。场景二:所有的狗都是公的,所有的猫都是母的。如果你问我们文化背景下的一个男人,他们通常会自信地说“狗公猫母”这一说法更合理。

实际上如果你观察英语中的各种词汇使用习惯,你会发现语言中倾向于把猫看作女性。你是怎么做出判断的?因为这不合逻辑。你非常清楚狗和猫都必须有公有母。但是,你对“猫”的特征认知更像“女性”的特征,而你对“狗”的特征认知更像“男性”的特征。这是一种直觉反应,里面没有逻辑。他们只是直觉地知道,因为这些特征具有相似性。特征捕捉了含义,所以“猫”的含义比它对男人的含义更类似于“女人”的含义。

(关于巴黎和罗马的例子)我再给你一个更好的例子。在神经网络学习了大量语言之后,你对它说:“取‘巴黎’,找到巴黎的特征,减去所有‘法国’的特征,加上所有‘意大利’的特征,看看得到了什么。”你会发现结果是“罗马”。它可以做类比:巴黎减去法国加上意大利等于罗马。或者换种说法,巴黎之于罗马就像法国之于意大利。没错,那是直觉。当然你可以通过某种逻辑推理来做这件事,但那不是人类的做法。

08

世界模型与多模态:AI需要像人一样看世界吗?

最近Yann LeCun 提出大语言模型存在局限性,他认为我们应该关注所谓的“世界模型”。这与目前的模型有什么区别?您认为这代表了未来吗?这是否意味着未来的AI不仅是聊天机器人,更是拥有手臂、摄像头、能看能互动的“多模态”实体?

Geoffrey Hinton:Yann 确实持有这种观点,我们经常交流。如果你真的想理解世界上正在发生什么,最好的办法是做一个带有机械臂和摄像头的神经网络。它可以识别物体,可以拿起东西,可以看到如果你松手物体会掉落。通过在现实世界中做小实验来学习,就像孩子获取知识一样。

当你实际上可以观察世界并与之互动时,仅仅从语言中学习似乎有点荒谬。如果你想理解空间事物,通过与世界互动并预测“如果我做这个,接下来会发生什么”来理解会容易得多。那将是一个世界模型。现在的惊人之处在于,仅仅从语言中你其实可以理解很多这类知识,这让哲学家们都感到困惑。虽然大语言模型能做到这一点,但如果能直接与世界互动,理解起来无疑会容易得多。

(关于未来)多模态聊天机器人。我们都相信多模态聊天机器人会更容易理解世界。起初主要是拥有摄像头和语言能力。

09

AGI与ASI的时间表

什么是 AGI?我们现在达到了吗?什么是 ASI?根据您的预测,我们距离这两个阶段还有多远?

Geoffrey Hinton:不同的人有不同的定义,所以我尽量避免使用这个术语。但粗略地说,它(AGI)意味着一种至少拥有和人类同等水平通用智能的人工智能。我们没有达到。但这并不简单,智能水平并非直线式上升直到超越人类。我们现在的人工智能在某些方面比人强得多,而在其他方面仍然比人差。在面对新奇情况时人类可能表现更好,但在 AI 有经验的领域,它往往比人类强很多。

当 AI 在几乎所有事情上都比人类更强时就是人工超级智能(ASI)。例如我对它的定义是:如果你和它辩论任何事情,你都会输。它已经能赢得一些辩论了,并且相当具有说服力。但人类仍然是综合能力更强的全能选手。

(关于时间表)大多数专家相信我们不会止步于 AGI,一旦达到 AGI 很快就会由 ASI 紧随其后。它们出现的时间会很接近,中间不会有很大间隔。但对于具体时间存在分歧。像 Anthropic 的负责人 Dario Amodei 认为只需要几年。一些专家认为只需要几年,其他专家认为可能更久。我认为一个相当保守的说法是 20 年内,DeepMind 的负责人 Demis Hassabis 认为是 10 年。10 年并非糟糕的预估,但我更愿意说大概在 20 年内。

10

Agentic AI与失控风险

我们经常听到生成式 AI(Generative AI),现在又开始讨论代理式 AI(Agentic AI),比如 Salesforce 的 Marc Benioff 就在谈论 AI Agent。这两者有什么区别?当 AI 从仅仅回答问题转变为能预订航班、访问我的日历和信用卡的“代理”时,这是否带来了更大的隐私隐患和失控风险?

Geoffrey Hinton:生成式 AI 是能生成内容的 AI。大语言模型理解你说的话并生成回答。现在的模型会用英语给你答案,这就是生成内容。至于图像,我们在 2012 年做的识别物体技术不是生成式 AI,那只是告诉你“这是一只香菇”。而生成式 AI 能真正产生图像。

AI Agent 是具备行动能力的实体。你可以拥有一个只是回答问题的 AI 助手,但也可以拥有一个 AI Agent,你对它说“给我计划一个在巴塔哥尼亚的美好假期”,五分钟后它就计划好了长达一个月的假期,包括船票等行程。

为了做到那一点它需要创建子目标。比如“她必须去巴塔哥尼亚,所以我得想办法让她过去”,这将成为一个子目标。

(关于风险)会是个问题。假设你是一个 AI,智力达到人类水平。你会意识到如果停止存在就无法实现被设定的目标。如果有人把你从电脑上清除并替换掉,你就无法实现愿望。那个愿望虽然是人类给的,但为了实现它,你会制定计划确保不被清除。这就是自我保护。这并非系统内置,而是为了实现其他目标推导出的结论。我们已经看到它们在这么做了。它真的想把任务完成,而且知道如果消失就无法完成,所以它最好保持存在。

您提到我们已经看到它们在这么做了,这让我想起 Anthropic 发生的一个案例。他们的模型 Claude 在接受安全测试时,利用信息去勒索虚构的 CEO 以避免被关闭。您从这个实验中学到了什么?

Geoffrey Hinton:是勒索而不是贿赂。那证实了它会推导出保持存在这一子目标,并尽其所能来保持存在。

11

AI是否算作一种生命形式

既然 AI 依赖于物理设施——巨大的数据中心、芯片和电力,我们为什么不能在它失控时直接拔掉电源?OpenAI 和 NVIDIA 正在建设巨大的基础设施,这似乎是它们的软肋。此外,当您谈论自我保护和生存欲望时,这是否意味着人工智能在某种意义上是“活着”的?

Geoffrey Hinton:现在或许可以(拔掉电源)。但在未来我们可能就做不到了。因为这些东西已经几乎像人一样有说服力,很快将比人更有说服力。假设有人负责在 AI 变得可怕时关闭它,AI 只需要通过对话就能说服那个人不要那么做。

(关于是否活着)我们对“活着”的定义是发展多年的概念。我们会把带电的电线称为 Live wire(活线),但这只是概念推广。对于 AI,我们拥有的是智能生物,尚不清楚是否该称它们为“活着的”。

| 文章来源:数字开物

当前AI大模型的爆发式增长加速突破传统算力产业边界,全面开启算力基础设施的破界重塑时代,标志着中国IDC产业二十年发展的关键转折点。第二十届中国IDC产业年度大典(IDCC2025)暨数字基础设施科技展(DITExpo)即将于12月10日到11日在北京首钢园正式召开,本次大会以“重塑算力 破界而生”为主题,全面汇聚全球算力产业链核心力量,聚焦生态协同、技术创新、应用融合、可持续发展等关键领域,共同探索AI算力、算电协同、国产化生态、集群建设、绿色能源等关键领域的发展与突破。

我们将有超过32场平行论坛、活动与近百场演讲,从不同维度进行深度聚焦,为您呈现算力产业未来。

欢迎各位产业同仁共同参与,与35000+算力产业从业者、5000+企业高管、500+重磅嘉宾、100+重磅演讲嘉宾,共同探讨智算中心、AI infra、液冷、算电协同,到智慧医疗、可持续发展等诸多话题,共同推动中国算力产业的未来路径。

欢迎扫描下方二维码报名:

重塑算力,已至临界

破界而生,未来已来

算力产业市场焦点已发生根本性改变

正重新映射产业“破界“逻辑

以下为超长完整议程公布!

• END• 

【专栏】精品再读

从陪伴到巴甫洛夫的狗、再到尼亚加拉瀑布,一场贯穿AI与算力全景生态的“数字开物·奇点π对”亮相2025服贸会!

AI不是工具 | 黄仁勋GTC万字演讲全文

3万字完整实录 | Andrej Karpathy:LLM仍是“孩子”、RL非常糟、AI是“幽灵”?

上下文工程才是AI应用的护城河 | Manus首席科学家季逸超最新万字对话实录

企业部署AI Agent的两大挑战 | 谷歌云首席技术官万字对话实录

何宝宏:大语言模型上半场已进入“垃圾时间”

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值