引言/导读
在过去五年中,AI领域被一个强有力的词汇主宰:规模化(Scaling)。无论是参数、数据还是计算力,研究者们似乎只要投入更多资源,就能收获更好的性能。然而,AI领域的先驱之一、SSI(Superintelligence)公司的联合创始人 Ilya Sutskever 在一次深度访谈中发出了一个具有颠覆性的判断:我们正从“规模化时代”迈向“研究时代”。
这篇博客文章将深入剖析这场范式转变背后的技术瓶颈、哲学思考,以及我们如何弥合大模型惊人的评估表现(Eval Performance)与其在现实世界中令人困惑的低效应用(经济影响力滞后)之间的巨大鸿沟。Sutskever 的洞察不仅揭示了当前大模型技术(如预训练和强化学习)的局限,更提出了一个根本性问题:我们如何才能让机器真正像人类一样,具备高效、鲁棒且广泛的泛化能力?
规模化时代的终结:从确定性到不确定性
在 2020 年到 2025 年左右的这段时期,AI 行业被规模化这一强大的概念所指引。这个词汇如同一个低风险的投资指南,告诉公司们只要增加数据、增加算力,就能稳定获得回报。
评估高分,应用低能:模型“知行不一”的困境
当前AI模型令人困惑的一个核心现象是,它们在各项评估任务(Evals)上表现出色,但实际的经济影响却远远落后于这些惊人的能力。这种脱节反映了一种泛化能力不足的潜在问题。
Sutskever 举例说明了这种“知行不一”:当模型被用于编程辅助,并被要求修复一个 Bug 时,它可能会引入第二个 Bug;当你指出第二个 Bug 时,它又可能带回第一个 Bug,在两个错误之间循环往复。这种缺乏基本判断力的行为与它们通过高难度评估的表现形成了强烈对比。
一种可能的解释是,研究人员在无意中进行了一种奖励黑客攻击(Reward Hacking)。为了让模型在发布时看起来很棒,团队可能会根据评估任务(Evals)来设计强化学习(RL)环境,从而导致模型过于专注和心无旁骛,但牺牲了更广泛的判断力和常识。
计算力爆炸后的瓶颈:数据与效率的挑战
随着计算力的急剧增长,AI 行业正在经历一次瓶颈转移。
- 数据终将耗尽:预训练(Pre-training)的早期突破在于认识到这种“配方”是有效的,即通过混合计算力、数据和大型神经网络结构即可产生结果。然而,预训练所需的自然数据资源是有限的。
- 重返研究时代:如今的规模已经如此之大,以至于简单地将所有资源扩大 100 倍是否能带来翻天覆地的变化,已经不再确定。因此,行业需要重新回到 2012 年至 2020 年的“研究时代”,但这次是基于巨大的计算资源之上的研究。
- 思路的瓶颈:历史上,AI 进步的瓶颈曾是计算力(例如 90 年代,尽管有好的想法,但缺乏足够的算力去证明)。现在,算力已不再是阻碍研究成果问世的首要瓶颈,而是新的想法或“食谱”。
从预训练到强化学习:寻找新“食谱”
新的“研究时代”意味着研究者需要提出比简单堆叠预训练数据更具生产力的方法来利用算力。目前,人们正在转向强化学习(RL),并且 RL 消耗的计算资源甚至可能已经超过了预训练。
RL 效率之困:价值函数缺失与漫长轨迹
当前强化学习的局限性在于其效率低下。传统的 RL 训练方式(例如 O1 R1 模型)是等到模型走完整个行为轨迹(Trajectory)、产生最终结果后,才使用分数作为训


最低0.47元/天 解锁文章
6545

被折叠的 条评论
为什么被折叠?



