2025年10月26日,旧金山TED AI大会现场,当Llion Jones说出"是时候放弃Transformer了",台下1500名AI研究者集体沉默。这位8年前与团队共同发表《Attention Is All You Need》的"Transformer之父",如今却成了自己亲手缔造的AI帝国最尖锐的批判者。"我们正在给马车装碳纤维尾翼",他的比喻像一颗炸弹,瞬间引爆了科技圈对AI创新停滞的激烈讨论。
从革命到内卷:Transformer霸权下的创新窒息
2017年6月,当Transformer架构首次亮相时,它用"注意力机制"彻底颠覆了RNN时代的序列建模逻辑。谷歌DeepMind当时的测试显示,这个仅含编码器-解码器结构的模型,在机器翻译任务上训练速度比传统LSTM快3倍,参数效率提升40%。但Jones在演讲中披露的一组数据令人心惊:2024年全球AI顶会论文中,93.7%的研究是对Transformer的微调,真正提出新架构的论文占比不足1.2%。
"现在的AI研究就像在同一块草坪上反复修剪",纽约大学AI实验室主任Gary Marcus在会后评论道。行业数据显示,OpenAI的GPT-5相比GPT-4,除了参数规模从1.8万亿增至4.2万亿,核心架构没有本质变化;谷歌Gemini Ultra的多模态能力提升,也仅是通过增加视觉编码器模块实现。更讽刺的是,2024年NeurIPS大会接收的1876篇论文中,有342篇标题包含"Attention"关键词,形成了独特的"标题内卷"现象。
Jones回忆Transformer诞生时的场景令人唏嘘:"当时我们在谷歌的办公室里,没有KPI考核,没有论文发表压力,就是午饭时在白板上乱画。"这种自由氛围催生出的创新,如今已被资本逻辑彻底改写。某头部AI公司算法总监匿名透露:"我们团队今年的OKR里,明确要求'基于现有架构实现30%性能提升',没人敢提探索新方向。"
算力军备竞赛:当参数规模成为唯一信仰
Transformer的成功,意外开启了AI行业的"参数崇拜"。2020年GPT-3的1750亿参数曾是天文数字,到2025年,Anthropic的Claude 4已达到12万亿参数规模。但Jones尖锐指出:"增加参数就像给灯泡添钨丝,总有烧断的一天。"他展示的对比数据显示,2024年训练一个千亿级模型的成本,相当于2017年训练整个ImageNet数据集的3000倍,而性能提升仅为当年的1.8倍。
这种疯狂扩张背后是惊人的资源浪费。加州大学伯克利分校的研究显示,2024年全球AI训练消耗的电力相当于400万辆汽车的年排放量,其中62%的算力被用于"无意义的参数堆砌"。更危险的是,算力垄断正在形成:英伟达H100 GPU的全球供应量中,78%被五家科技巨头掌控,中小实验室根本无力参与基础创新。
"我们正在重复计算机发展史上的错误",图灵奖得主Yoshua Bengio在Twitter上呼应Jones。上世纪80年代,大型机厂商也曾陷入"更快的CPU时钟频率"竞赛,直到PC革命打破垄断。如今的AI行业,正面临相似的历史节点——当OpenAI宣布GPT-6将采用"10万亿参数+256层Transformer"架构时,科技圈终于开始反思:这条路真的正确吗?
反叛者联盟:当自由探索成为奢侈品
在东京涩谷区一间不起眼的办公室里,Jones联合DeepMind前研究员创立的Sakana AI正在进行一场"反内卷实验"。这个名字意为"鱼群"的公司,刻意保持15人的小规模团队,拒绝接受有业绩要求的投资。他们最新发布的"进化架构",灵感来自生物进化算法,在某些推理任务上已展现出超越Transformer的效率。
"我们给员工的考核指标是'每周提出3个疯狂想法',而不是发表论文",Sakana AI首席科学家Taro Sato介绍道。这种异类模式反而吸引了顶尖人才——从谷歌Brain离职的深度学习专家Ilya Sutskever,放弃了七位数年薪加入这个团队。他们的秘密武器是"混沌训练法":故意在模型训练中引入随机噪声,逼迫系统跳出局部最优解。
类似的反叛正在全球多点爆发。多伦多大学的"神经符号实验室"完全抛弃神经网络,用符号逻辑重构AI系统;华为苏黎世研究院则从量子计算中汲取灵感,开发基于纠缠态的新型计算单元。这些探索虽然短期内难以超越Transformer,却代表着行业重生的可能。正如Jones在演讲结尾所说:"下一个Transformer级别的突破,可能藏在某个被忽视的车库里,而不是市值万亿的科技巨头总部。"
当沙特用石油美元建设全球最大算力中心,当传统云厂商为参数规模打破头时,Transformer之父的"分手信"像一记警钟。科技行业的终极创新,从来不是资源堆砌的结果,而是自由思想的火花。或许正如乔布斯的那句名言:"创新就是把不同的点连接起来"——而现在,AI行业最缺的,正是敢于连接不同领域的勇气。

被折叠的 条评论
为什么被折叠?



