导读: 在大语言模型(LLM)和生成式AI席卷全球的当下,人工智能界却响起了一股强劲的异议之声。这声音来自强化学习(RL)领域的奠基人、2024年图灵奖得主理查德·萨顿(Richard Sutton)。他以其标志性的批判性思维断言:LLM可能是一个死胡同。本文将基于他近期在Dwarkesh Patel播客上的访谈内容,深入探讨RL与LLM在智能本质上的根本分歧,并分析萨顿所预见的“经验时代”。
一、 智能的本质:目标驱动与世界理解
萨顿的观点核心在于对“智能”的定义。他认为,智能的本质是实现目标的能力。用计算机科学家约翰·麦卡锡(John McCarthy)的定义来说,智能是实现目标能力的计算部分。
萨顿强调,强化学习(RL)是基础人工智能(basic AI),其关注点在于理解你的世界。RL的学习机制是围绕“目标驱动”和“环境反馈”构建的。
在RL范式中,生命或智能体的运行基础是一个连续的流:感知(sensation)—行动(action)—奖励(reward)。智能的核心在于接收这个数据流,并调整行动以最大化奖励。因此,知识的内容是关于这个流的陈述,例如:如果你采取某个行动,将会发生什么。
RL通过奖励来提供**“真实标签”(Ground Truth)**:正确的行动是能为你带来奖励的行动。这使得RL能够定义什么是对错,并能够检查并验证通过他人(人类)提供的先验知识。萨顿本人也因发明了TD学习(Temporal Difference Learning)和策略梯度(Policy Gradient)等RL核心技术而获得了图灵奖。
二、 对大语言模型的尖锐批判:模仿的局限性
萨顿认为,当前以LLM为代表的生成式AI热潮正


最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



