告别规模化时代:Ilya Sutskever 深度剖析 AI 范式转向与“研究复兴”

引言/导读

在过去五年中,AI领域被一个强有力的词汇主宰:规模化(Scaling)。无论是参数、数据还是计算力,研究者们似乎只要投入更多资源,就能收获更好的性能。然而,AI领域的先驱之一、SSI(Superintelligence)公司的联合创始人 Ilya Sutskever 在一次深度访谈中发出了一个具有颠覆性的判断:我们正从“规模化时代”迈向“研究时代”。

这篇博客文章将深入剖析这场范式转变背后的技术瓶颈、哲学思考,以及我们如何弥合大模型惊人的评估表现(Eval Performance)与其在现实世界中令人困惑的低效应用(经济影响力滞后)之间的巨大鸿沟。Sutskever 的洞察不仅揭示了当前大模型技术(如预训练和强化学习)的局限,更提出了一个根本性问题:我们如何才能让机器真正像人类一样,具备高效、鲁棒且广泛的泛化能力

规模化时代的终结:从确定性到不确定性

在 2020 年到 2025 年左右的这段时期,AI 行业被规模化这一强大的概念所指引。这个词汇如同一个低风险的投资指南,告诉公司们只要增加数据、增加算力,就能稳定获得回报。

评估高分,应用低能:模型“知行不一”的困境

当前AI模型令人困惑的一个核心现象是,它们在各项评估任务(Evals)上表现出色,但实际的经济影响却远远落后于这些惊人的能力。这种脱节反映了一种泛化能力不足的潜在问题。

Sutskever 举例说明了这种“知行不一”:当模型被用于编程辅助,并被要求修复一个 Bug 时,它可能会引入第二个 Bug;当你指出第二个 Bug 时,它又可能带回第一个 Bug,在两个错误之间循环往复。这种缺乏基本判断力的行为与它们通过高难度评估的表现形成了强烈对比。

一种可能的解释是,研究人员在无意中进行了一种奖励黑客攻击(Reward Hacking)。为了让模型在发布时看起来很棒,团队可能会根据评估任务(Evals)来设计强化学习(RL)环境,从而导致模型过于专注和心无旁骛,但牺牲了更广泛的判断力和常识。

计算力爆炸后的瓶颈:数据与效率的挑战

随着计算力的急剧增长,AI 行业正在经历一次瓶颈转移。

  • 数据终将耗尽:预训练(Pre-training)的早期突破在于认识到这种“配方”是有效的,即通过混合计算力、数据和大型神经网络结构即可产生结果。然而,预训练所需的自然数据资源是有限的
  • 重返研究时代:如今的规模已经如此之大,以至于简单地将所有资源扩大 100 倍是否能带来翻天覆地的变化,已经不再确定。因此,行业需要重新回到 2012 年至 2020 年的“研究时代”,但这次是基于巨大的计算资源之上的研究。
  • 思路的瓶颈:历史上,AI 进步的瓶颈曾是计算力(例如 90 年代,尽管有好的想法,但缺乏足够的算力去证明)。现在,算力已不再是阻碍研究成果问世的首要瓶颈,而是新的想法或“食谱”。

从预训练到强化学习:寻找新“食谱”

新的“研究时代”意味着研究者需要提出比简单堆叠预训练数据更具生产力的方法来利用算力。目前,人们正在转向强化学习(RL),并且 RL 消耗的计算资源甚至可能已经超过了预训练。

RL 效率之困:价值函数缺失与漫长轨迹

当前强化学习的局限性在于其效率低下。传统的 RL 训练方式(例如 O1 R1 模型)是等到模型走完整个行为轨迹(Trajectory)、产生最终结果后,才使用分数作为训

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

GoldenSpider.AI

您的鼓励是我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值