【优快云 编者按】在这个 LLM 飞速演进的时代,我们总习惯将“进步”归功于新的模型架构、算法创新或更炫的技术名词。而本文作者提出了一个值得深思的观点:AI 的真正飞跃,或许从来都不是由“新想法”驱动,而是“新数据源”的觉醒。
原文链接:https://blog.jxmo.io/p/there-are-no-new-ideas-in-ai-only
作者 | Jack Morris 翻译 | 郑丽媛
出品 | 优快云(ID:优快云news)
投稿或寻求报道 | zhanghy@youkuaiyun.com
大多数人都知道,过去 15 年里 AI 取得了惊人的进步——尤其是在过去 5 年。很多人都认为这种进步是“不可阻挡的”,尽管真正的范式突破并不常见,但技术还是在一系列缓慢而稳定的进展中不断发展。甚至有人提出了“AI 版摩尔定律”一说,认为计算机完成某类任务(比如编程)的能力正以指数级增长:
尽管出于多种原因,我并不完全认同“AI 摩尔定律”的说法,但必须承认,AI 正在以肉眼可见的速度不断进步。每年,我们的 AI 模型都在变得更聪明、更快、更便宜,这种趋势短期内还看不到尽头。
大多数人都认为,这种持续的进步来自于学术界(主要是 MIT、斯坦福、CMU 等)和工业界(如 Meta、Google以及一些中国研究机构)源源不断的新研究思路。由于这些研究的推动,我们确实取得了很大进展,特别是在系统方面。正是这些改进,让我们能更高效、更便宜地训练模型。以下是我挑选的几项近几年比较重要的研究成果:
● 2022 年,斯坦福提出 FlashAttention:一种优化语言模型内存利用的算法,如今几乎所有主流模型都在用;
● 2023 年,Google 提出“推测解码”(Speculative Decoding):几乎所有模型厂商都用它来加速推理(我记得DeepMind 也在同期做过类似研究);
● 2024 年,一群互联网爱好者推出 Muon:一种比 SGD 或 Adam 更高效的优化器,可能会成为未来训练 LLM 的主流方案;
● 2025 年,DeepSeek 推出 DeepSeek-R1:一款开源模型,其推理能力与 Google 和 OpenAI 等公司推出的类似闭源模型相当。
可以说,我们的研究体系正在不断探索新路径,而且事实比你想象的还要酷:我们正在进行一场去中心化、全球化的科学实践,研究成果在 ArXiv、学术会议、社交媒体上公开分享,每个月我们都在变得更聪明一点点。
既然研究做得这么多,为什么还有人说 AI 进展“放缓”了?前阵子发布的Grok 3 和 GPT-4.5,与它们的前代产品相比,能力提升非常有限。一个特别明显的例子是:当这些大语言模型被拿去做最新的国际数学奥林匹克的题目时,得分只有 5%——换句话说,那些看起来很“炸裂”的发布会可能夸大了模型真实的推理能力。
如果我们把视野拉远,只关注真正意义上的范式转变,你会发现它们出现的频率其实很低。下面我来列举几个我能想到的。
LLM 的四次范式转变
(1)深度神经网络(DNN):2012 年,AlexNet 在 ImageNet 图像识别竞赛中获胜,正式揭开深度神经网络的时代。
(2)Transformer 架构 + 大语言模型:2017 年,Google 发表论文《Attention Is All You Need》,提出 Transformer 架构,随后推出 BERT(2018)和 GPT(OpenAI,2018)。
(3)基于人类反馈的强化学习(RLHF):最早由 OpenAI 在 2022 年的 InstructGPT 论文中系统提出。
(4)推理能力模型的崛起:2024 年OpenAI 发布了 o1,随后DeepSeek推出了 R1。
你可以粗略地把这些过程总结成一条主线:DNN → Transformer → RLHF → 推理模型。一开始我们只是做图像识别,接着进入文本分类时代,再到能聊天的模型,现在则有了推理模型。
现在问题来了:如果我们希望促成第五次这样的重大突破,那得从这四次中吸取哪些经验?
从技术的本质来看,这四次飞跃其实都不是“从天而降的新思想”。甚至可以说,它们的基础理论早在1990 年代就已成型。所谓的深度神经网络和 Transformer,本质上都是简单的神经网络架构,训练方式要么采用监督学习,要么采用强化学习。
我们今天用于预训练语言模型的主要方法——基于交叉熵的监督学习,源于Claude Shannon在 20 世纪 40 年代的研究。而通过 RLHF 和推理训练对语言模型进行微调的主要方法——强化学习,则稍新一些,可以追溯到 1992 年提出的策略梯度法(这些想法在 1998 年Sutton & Barto的《强化学习》教材第一版中就已有详解)。
如果我们的想法并非新创,那什么才是新的?
好,我们先接受一个设定,前面提到的那些“重大突破”,其实都只是把早就存在的思路以新的方式应用了一遍。那么,这对“下一次突破”(也就是我前文提到的“第五次重大突破”)意味着什么?答案是:下一个突破,大概率也不是来自某个全新的原创概念,而是我们早就知道、但还没充分挖掘的老东西。
但还有一块关键拼图我们不能忽略:每一次范式转变的背后,都对应着一个全新数据源的启用。我们来回顾一下这四次突破背后的数据变化:
(1)AlexNet 的出现开启了 ImageNet 时代:这是第一个大规模标注图像的数据集,直接推动了接下来十多年计算机视觉领域的快速进展。
(2)Transformer 成功解锁了“全网文本”这个数据源:AI开始疯狂爬取、清洗、整理整个互联网的文本内容(如今基本已经爬得差不多了)。
(3)RLHF 让我们开始从“人类偏好”中学习:人类用点击、评分等方式告诉模型什么是“好文本”(虽然标准比较主观)。
(4)推理模型开启了“验证器”作为监督源:我们开始尝试从像计算器、编译器这样的工具中获取“结果对不对”的信号。
要记住,这些里程碑事件的意义在于:它们首次让各自对应的数据源(ImageNet、互联网、人类反馈、验证器)得到了规模化应用。每个里程碑之后都伴随着一阵研究热潮:研究者们一方面竞相从所有可用来源中汲取剩余的有用数据,另一方面通过各种新技巧提高系统效率、降低数据需求,以求更好地利用现有数据。
我预计在 2025 到 2026 年,推理模型也将走入这一阶段:研究者将争先恐后地定义、标注、验证各种能被“推理监督”的数据。
“新想法”到底有多重要?
有人可能会说:技术创新不重要,那总不能全靠数据吧?
但让我们做个反设:如果没有 AlexNet,也可能会出现其他模型来处理 ImageNet;如果没有 Transformer,也可能会有人用 LSTM 或 SSM(State Space Model)类结构吃下互联网上的海量文本。
这就呼应了一些人提过的理论:“只有数据才是关键”。有研究者尝试用 SSM 架构构建一个类似 BERT 的模型,他们花了一年时间调整模型的架构和超参数,最终效果跟 Transformer 差不多——只要训练数据是一样的。
这个结果其实非常值得深思:它意味着对于同一份数据,模型最终所能学到的东西是有“上限”的。无论你怎么花里胡哨地调模型、调优化器,如果数据没变,那学习能力的天花板也就差不多固定了。
或许,这正是 Sutton 在《苦涩的教训(The Bitter Lesson)》中想要传达的核心:长期来看,起决定性作用的不是“人类智慧”,而是计算与数据。那么问题来了:既然最重要的是数据,为什么 95% 的研究人员还在研究新模型、新方法?
下一次 AI 范式转变将从哪里来?
如果我们接受了这个观点——AI 的范式转变来源于“数据源的革命”而非“方法的发明”——那下一次的关键突破,很可能是某种尚未被大规模用于训练的数据资源的解锁。
目前很多人都在努力攻克的一个明显信息源是视频。据某网站统计,每分钟有大约 500 小时的视频上传到 YouTube。这是一个惊人的数据量,远超互联网上所有文本的总和。视频的信息密度也更高:不仅包含语言和语调,还包含视觉、物理动作、情绪甚至文化背景,这些是单纯的文本远远无法提供的。
可以肯定的是,一旦模型推理速度足够快,或者 GPU 能力足够强,Google(作为 YouTube 的拥有者)极有可能率先行动,开始训练以视频为核心输入的 AI 模型——毕竟他们就拥有这个数据平台,没理由不用。
另一个热门方向是“具身智能体”,也就是普通人所理解的“机器人”。目前,我们还没办法像处理文本或图片那样,去高效处理摄像头、传感器等源源不断流入的原始物理世界数据。原因之一,是这些数据不够结构化、不适合直接喂给大模型;另一原因是计算资源还跟不上。
如果我们能做出更聪明的感知系统,或者算力提升到能轻松处理机器人所见所闻的程度,我们就可以用这些现实世界的数据,来驱动一波新的 AI 飞跃。
当然了,现在还很难说到底是 YouTube、机器人,还是其他未被发掘的数据源将成为 AI下一个 “大事件”的起点,但可以确定的是:语言数据正在枯竭。如果我们想在 AI 领域继续取得进展,或许应该停止寻找新想法,转而开始寻找新的数据。
推荐阅读:
“等到Linux 6.17就「分手」!”Linus再被Bcachefs惹怒:公开要求为新特性“开后门”?
曝印度工程师一人兼4份全职,还拿下年薪20万美元Offer:请病假的时候,竟在GitHub上给别家写代码?
📢 AI 产品爆发,但你的痛点解决了吗?
2025 全球产品经理大会
8 月 15–16 日
北京·威斯汀酒店
互联网大厂、AI 创业公司、ToB/ToC 实战一线的产品人
12 大专题分享,洞察趋势、拆解路径、对话未来。
立即扫码领取大会PPT
抢占 AI 产品下一波红利