
2025年在大语言模型(LLM)领域是强劲且充满变数的一年。以下是一份我个人认为值得注意且略感惊讶的“范式转变”清单——这些是在概念上改变了格局并让我印象深刻的事情。
1. 基于可验证奖励的强化学习 (RLVR)
在2025年初,所有实验室的 LLM 生产技术栈大概是这样的:
- 预训练 (GPT-2/3, 约2020年)
- 监督微调 (InstructGPT, 约2022年)
- 基于人类反馈的强化学习 (RLHF, 约2022年)
这曾是一段时间内训练生产级 LLM 的稳定且行之有效的配方。但在2025年,基于可验证奖励的强化学习 (RLVR) 成为了事实上必须加入这一组合的新主要阶段。通过在许多环境中针对可自动验证的奖励(例如数学/代码谜题)训练 LLM,模型自发地发展出了在人类看来像是“推理”的策略——它们学会了将解决问题的过程分解为中间计算步骤,并学会了许多用于反复推敲以弄清问题的解题策略(参见 DeepSeek R1 论文中的例子)。这些策略在以前的范式中很难实现,因为对于 LLM 来说,最佳的推理路径和纠错方式是什么并不清晰——它必须通过针对奖励的优化来找到适合自己的方法。
与 SFT(监督微调)和 RLHF 阶段不同(这两个阶段都在计算上相对较轻/较短),RLVR 涉及针对客观(不可被轻易利用/欺骗)的奖励函数进行训练,这允许进行更长时间的优化。事实证明,运行 RLVR 提供了很高的“能力/成本”比,它吞噬了原本打算用于预训练的算力。因此,2025年的大部分能力进步都是由 LLM 实验室消化这一新阶段的红利所定义的,总体而言,我们看到了模型尺寸相似但强化学习(RL)运行时间长得多的现象。此外,这一新阶段独有的是,我们获得了一个全新的旋钮(以及相关的缩放定律),可以通过生成更长的推理路径和增加“思考时间”来控制作为测试时计算量(test time compute)函数的能力。OpenAI o1(2024年底)是 RLVR 模型的首次演示,但 o3 的发布(2025年初) 是明显的拐点,在那时你可以直观地感受到差异。
2. 幽灵 vs 动物 / 参差不齐的智能 (Jagged Intelligence)
2025年是我(我想整个行业也是)第一次开始以更直观的感觉内化 LLM 智能的“形状”。我们不是在“进化/培育动物”,我们是在 召唤幽灵。关于 LLM 技术栈的一切都是不同的(神经网络架构、训练数据、训练算法,尤其是优化压力),所以不足为奇的是,我们在智能空间中得到了非常不同的实体,用动物的视角来思考它们是不恰当的。就监督信号的比特而言,人类神经网络是为了部落在丛林中的生存而优化的,但 LLM 神经网络是为了模仿人类文本、在数学谜题中收集奖励以及在 LM Arena(大模型竞技场)上获得人类的点赞而优化的。由于可验证领域允许 RLVR 的存在,LLM 在这些领域附近的能力会“突刺”般暴涨,总体上表现出有趣的参差不齐 (Jagged) 的性能特征——它们同时是天才博学家,又是困惑且认知受损的小学生,只需几秒钟就会被越狱攻击欺骗从而泄露你的数据。

人类智能是蓝色的圆,AI智能是红色的刺状图形
与此相关的是我在2025年对基准测试(Benchmarks)普遍产生的冷漠和信任丧失。核心问题在于,基准测试几乎在构建上就是可验证的环境,因此立即容易受到 RLVR 的影响,以及通过合成数据生成带来的较弱形式的影响。在典型的“刷榜(benchmaxxing)”过程中,LLM 实验室的团队不可避免地构建了与基准测试所占据的嵌入空间小口袋相邻的环境,并长出“锯齿”来覆盖它们。在测试集上训练成了一门新的艺术形式。
“碾压所有基准测试但仍然没有实现 AGI(通用人工智能)”,这究竟意味着什么?
3. Cursor / LLM 应用的新层级
关于 Cursor(除了它今年通过流星般的崛起),我觉得最值得注意的是它令人信服地揭示了“LLM 应用”的一个新层级——人们开始谈论“X 领域的 Cursor”。正如我在今年的 Y Combinator 演讲中所强调的,像 Cursor 这样的 LLM 应用为特定的垂直领域打包并编排了 LLM 调用:
- 它们做“上下文工程”
- 它们在幕后编排多个 LLM 调用,将其串联成日益复杂的有向无环图(DAG),仔细平衡性能和成本的权衡。
- 它们为参与其中的人类提供了特定于应用程序的 GUI(图形用户界面)。
- 它们提供了一个“自主性滑块”。
2025年有很多关于这个新应用层有多“厚”的讨论。LLM 实验室会捕获所有应用,还是说 LLM 应用仍有广阔天地?就我个人而言,我怀疑 LLM 实验室将倾向于培养出具有普遍能力的“大学毕业生”,但 LLM 应用将通过提供私有数据、传感器、执行器和反馈循环,将这些毕业生组织、微调并真正“赋予生命”,使其成为特定垂直领域的部署专家团队。
4. Claude Code / 活在你电脑上的 AI
Claude Code (CC) 作为一个令人信服的演示出现了,它展示了 LLM Agent(智能体)应该是什么样子的——某种能以循环方式将工具使用和推理串联起来以解决扩展问题的东西。此外,CC 对我来说值得注意的是,它运行在你的电脑上,并且拥有你的私有环境、数据和上下文。我认为 OpenAI 搞错了,因为他们早期的 Codex/Agent 努力集中在从 ChatGPT 编排的云端容器部署,而不是简单的 localhost。虽然在云端运行的智能体集群感觉像是“AGI 的终局”,但我们生活在一个能力参差不齐、起飞速度足够慢的中间世界,直接在开发者的电脑上运行智能体更有意义。请注意,重要的主要区别不在于“AI 运算”在哪里运行(云端、本地或其他),而在于其他所有东西——已经存在并启动的电脑、其安装环境、上下文、数据、密钥、配置以及低延迟的交互。Anthropic 搞对了优先级顺序,并将 CC 打包成一个令人愉悦的、极简的 CLI(命令行界面)形式,改变了 AI 的样子——它不再只是你像访问 Google 那样去的一个网站,它是一个“活”在你电脑里的小精灵/幽灵。这是一种与 AI 交互的全新、独特的范式。
5. Vibe Coding (氛围编码 / 凭感觉写代码)
2025年是 AI 跨越能力阈值的一年,使得仅仅通过英语就能构建各种令人印象深刻的程序成为可能,甚至可以忘记代码的存在。有趣的是,我在那条洗澡时的随想推文[1]中创造了“Vibe coding”这个词,当时完全不知道它会走多远 😃 。有了 Vibe coding,编程不再是受过高度训练的专业人士的专利,而是任何人都可以做的事情。在这种能力下,它是我在权力归于人民:LLM 如何翻转技术扩散剧本[2]一文中写的又一个例子,即(与迄今为止的所有其他技术形成鲜明对比)普通人从 LLM 中受益的程度远高于专业人士、公司和政府。但 Vibe coding 不仅让普通人能够接触编程,它还让受过训练的专业人士能够编写更多(Vibe coded)软件,而这些软件原本是永远不会被写出来的。在 nanochat 中,我用 Vibe coding 用 Rust 写了我自己定制的高效 BPE 分词器,而不是不得不采用现有的库或去学习那种水平的 Rust。今年我用 Vibe coding 写了许多项目,作为我希望存在的某种东西的快速应用演示(例如 menugen[3], llm-council[4], reader3[5], HN time capsule[6])。我也曾为了找出一个 Bug 而用 Vibe coding 写了整个临时的 App,因为为什么不呢——代码突然变得免费、短暂、可塑、一次性使用后即可丢弃。Vibe coding 将重塑软件并改变职位描述。
6. Nano Banana / LLM GUI (大模型图形界面)
Google 的 Gemini Nano Banana 是2025年最令人难以置信、最具范式转变意义的模型之一。在我的世界观中,LLM 是下一个主要的计算范式,类似于1970年代、80年代的计算机等。因此,我们将出于根本上相似的原因看到类似类型的创新。我们将看到个人计算、微控制器(认知核心)或互联网(智能体网络)等的等价物。特别是,在 UI/UX(用户界面/体验)方面,与 LLM “聊天”有点像是在1980年代向计算机控制台发出命令。文本是计算机(和 LLM)的原始/偏好数据表示,但它不是人类偏好的格式,尤其是在输入端。人们实际上不喜欢阅读文本——它既慢又费力。相反,人们喜欢在视觉和空间上消费信息,这就是为什么传统计算中发明了 GUI。同样地,LLM 应该以我们偏好的格式与我们交谈——通过图像、信息图表、幻灯片、白板、动画/视频、Web 应用等。当然,这种方式的早期和当前版本是像表情符号和 Markdown 这样的东西,它们是用来“打扮”和布局文本以便更容易消费的方法(标题、粗体、斜体、列表、表格等)。但是谁来构建 LLM 的 GUI 呢?在这个世界观中,Nano Banana 是这种未来可能样貌的第一个早期暗示。重要的是,它值得注意的一个方面是,它不仅仅关于图像生成本身,它是关于来自文本生成、图像生成和世界知识的联合能力,所有这些都纠缠在模型权重中。
TL;DR (摘要版)
2025年是 LLM 令人兴奋且略感惊讶的一年。LLM 正在作为一种新型智能涌现,同时比我预期的要聪明得多,也比我预期的要笨得多。无论如何,它们极其有用,而且我认为即使以目前的能力,整个行业也没有挖掘出其潜力的 10%。与此同时,有太多的想法可以尝试,从概念上讲,这个领域感觉完全开放。正如我今年早些时候在 Dwarkesh 的播客中提到的,我同时(表面上矛盾地)相信我们将看到快速且持续的进步,但仍有大量工作要做。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线科技企业深耕十二载,见证过太多因技术卡位而跃迁的案例。那些率先拥抱 AI 的同事,早已在效率与薪资上形成代际优势,我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在大模型的学习中的很多困惑。我们整理出这套 AI 大模型突围资料包:
- ✅ 从零到一的 AI 学习路径图
- ✅ 大模型调优实战手册(附医疗/金融等大厂真实案例)
- ✅ 百度/阿里专家闭门录播课
- ✅ 大模型当下最新行业报告
- ✅ 真实大厂面试真题
- ✅ 2025 最新岗位需求图谱
所有资料 ⚡️ ,朋友们如果有需要 《AI大模型入门+进阶学习资源包》,下方扫码获取~

① 全套AI大模型应用开发视频教程
(包含提示工程、RAG、LangChain、Agent、模型微调与部署、DeepSeek等技术点)

② 大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

③ 大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

④ AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

⑤ 大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

⑥ 大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

以上资料如何领取?

为什么大家都在学大模型?
最近科技巨头英特尔宣布裁员2万人,传统岗位不断缩减,但AI相关技术岗疯狂扩招,有3-5年经验,大厂薪资就能给到50K*20薪!

不出1年,“有AI项目经验”将成为投递简历的门槛。
风口之下,与其像“温水煮青蛙”一样坐等被行业淘汰,不如先人一步,掌握AI大模型原理+应用技术+项目实操经验,“顺风”翻盘!


这些资料真的有用吗?
这份资料由我和鲁为民博士(北京清华大学学士和美国加州理工学院博士)共同整理,现任上海殷泊信息科技CEO,其创立的MoPaaS云平台获Forrester全球’强劲表现者’认证,服务航天科工、国家电网等1000+企业,以第一作者在IEEE Transactions发表论文50+篇,获NASA JPL火星探测系统强化学习专利等35项中美专利。本套AI大模型课程由清华大学-加州理工双料博士、吴文俊人工智能奖得主鲁为民教授领衔研发。
资料内容涵盖了从入门到进阶的各类视频教程和实战项目,无论你是小白还是有些技术基础的技术人员,这份资料都绝对能帮助你提升薪资待遇,转行大模型岗位。


以上全套大模型资料如何领取?

2600

被折叠的 条评论
为什么被折叠?



