2025年AI大模型入门到精通：六大能力进化全解析，化妆品合规能学到什么？收藏这一篇就够了！-优快云博客

2025年 LLM年度总结

在过去十多年里，如果要找一位既真正参与过顶级AI项目落地、又能持续给出清晰行业判断的人，Andrej Karpathy几乎是无法绕开的名字。他不是站在场外评论技术趋势的观察者，而是长期处在技术变革中心的实践者。

在OpenAI任职期间，他深度参与了早期大模型与生成式AI的研究与工程推进，亲历了语言模型从“实验室能力展示”走向“可规模化部署系统”的关键阶段；随后在Tesla，他担任Autopilot负责人，把深度学习模型直接投入到真实道路环境中运行，这段经历也让他意识到：模型“看起来很聪明”和“在现实世界中可控、可信”之间，始终存在巨大鸿沟。

正因为横跨研究、工程与真实产品交付多个层面，他在2025年刚刚发布的这份《2025年 LLM 年度总结》，更像是一份来自一线的复盘：哪些能力真的在进化，哪些只是表面进步，又有哪些风险正在被低估。

2025 AI 总结

在谈趋势之前

先把“AI黑话”说清楚

要读懂他对2025年的判断，首先需要跨过一个门槛——大量“黑话”。这些概念并非为了制造理解壁垒，而是为了更精确地描述变化本身。LLM，也就是我们熟悉的ChatGPT、Claude这类大语言模型，本质上仍是基于概率预测文本的系统；

SFT和RLHF则是过去几年让模型“更像人类助手”的主要方式，通过人工示例和人工评分来校正输出。但Karpathy认为，真正改变2025年模型能力结构的，是RLVR——可验证奖励强化学习。

第一层变化

模型不再只会“说得像对的”

RLVR的关键不在于“奖励”，而在于“可验证”。相比让人判断回答好不好，它更依赖那些可以被机器自动检查的结果：代码能否成功编译，数学题是否算对，接口调用是否返回正确值。

如果你用过AI写代码、运行、报错、再让它修正的过程，其实已经体验过这种思路。模型不再只是学会“说得像对的”，而是被反复训练去达成一个可以被检验的正确结果。

这种训练方式，让模型在某些任务上迅速变得异常可靠，也解释了为什么代码、数学、结构化输出等能力在这一年突飞猛进。

第二层变化

大模型正在变成一种“操作系统”

这也引出了Karpathy提出的第一个重要判断：今天的LLM已经不只是语言模仿器，而是开始呈现出一种他称之为“幽灵智能”的状态。

它当然不是通用智能，也没有意识，但在复杂任务中，模型开始表现出可追踪的中间步骤——先规划、再执行、再修正。

比如在完成一个多步骤任务时，模型会先拆解目标，再调用不同工具，最后整合输出。这种行为模式并非真正“思考”，却已经明显超出了简单文本拼接的范畴。

第三层变化

AI开始真正“参与做事”

随着这种能力出现，LLM的角色也在发生变化。Karpathy用“Software 3.0”来描述这一阶段：模型不再只是被调用的功能模块，而开始像一个轻量级的“操作系统”，负责管理上下文、调度工具、协调流程。

过去我们向模型提问，得到一个答案；现在我们更常给它一个目标，它会去检索资料、调用函数、运行脚本，再把结果组织成一份可读输出。这种变化的重点不在模型参数规模，而在于模型被如何嵌入到系统之中。

与之相伴的，是所谓的Agent架构兴起。Agent 并不是更大的模型，而是一种组织模型的方式：它允许模型多轮决策、调用外部工具、根据中间结果调整路径。

一个看似简单的AI功能，背后可能是OCR、数据库检索、规则引擎与语言模型的协作。Karpathy对此保持相对克制的乐观——Agent很重要，但距离真正稳定、长期运行的智能体系统，仍然需要多年工程积累。

编程方式正在改变

但并不意味着门槛消失

在开发方式上，这一年另一个显著变化是他提出的 “Vibe Coding”。与其说这是编程革命，不如说是意图表达方式的改变。

开发者不再事无巨细地描述每一步逻辑，而是用自然语言描述“我想要什么效果”，由模型生成实现方案、代码结构甚至测试样例。

这种方式正在显著降低软件构建门槛，也重新定义了“谁可以参与开发”。

一个被反复忽略的事实

模型的能力是“锯齿状”的

但Karpathy并没有对模型能力做出过度乐观的判断。相反，他反复强调LLM的能力是“锯齿状”的：在可验证、结构清晰的任务上极强，在需要长期规划、现实常识或价值判断的场景中却非常不稳定。

这意味着，任何把模型当作“全能决策者”的系统设计，都潜藏巨大风险。

为什么合规行业

更需要这种AI进化路径

把这些判断放回到化妆品合规这样的高度规范化行业中，启发其实非常明确。

合规工作本身就高度依赖可验证结果：成分是否在禁限用清单内，标签宣称是否触碰红线，申报资料是否完整一致。

把LLM当作流程协调者而非单点判断工具，会更符合合规工作的真实形态。一个完整的合规判断，本就需要经历识别、比对、检索、归因和复核多个步骤。

再通过Agent架构把这些步骤模块化、可追溯地串联起来，模型负责调度，人负责最终裁量，反而比“全自动结论”更安全。

这种变化的价值，不在于替代专业判断，而在于把大量重复性、格式化的工作前移给系统完成。

如何学习大模型 AI ？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。

但是具体到个人，只能说是：

“最先掌握AI的人，将会比较晚掌握AI的人有竞争优势”。

这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

我在一线互联网企业工作十余年里，指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家，也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑，所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限，很多互联网行业朋友无法获得正确的资料得到学习提升，故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述