自最初的 GPT 架构开发以来,已经过去了七年。乍一看,回顾 GPT-2(2019 年),展望 DeepSeek-V3 和 Llama 4(2024-2025 年),人们可能会惊讶于这些模型在结构上仍然如此相似。
当然,位置嵌入已经从绝对嵌入演进到旋转嵌入(RoPE),多头注意力机制已基本被分组查询注意力机制所取代,而更高效的 SwiGLU 也取代了 GELU 等激活函数。但在这些细微的改进背后,我们是否真正看到了突破性的变化,还是仅仅在打磨相同的架构基础?
LLM架构子集:DeepSeek V3/R1、OLMo 2、Gemma 3、Mistral Small 3.1、Llama 4、Qwen3、SmolLM3和Kimi 2
一、DeepSeek V3/R1
DeepSeek V3 中引入的两种关键架构技术,这些技术提高了其计算效率,并使其有别于许多其他 LLM:多头潜在注意力(MLA)、混合专家(MoE):**1.1 多头潜在注意力(MLA)**MLA旨在解决传统多头注意力(MHA)在大规模模型中内存占用过高的问题。与分组查询注意力(GQA)相比,MLA通过压缩键和值张量来进一步减少内存使用。MHA 与 GQA 的比较。此处,组大小为 2,其中两个查询共享一个键值对。在MLA中,键和值张量在存储到KV缓存之前会被压缩到一个低维空间。在推理时,这些压缩的张量会被重新投影回原始大小。这种设计虽然增加了额外的矩阵乘法操作,但显著降低了内存占用。
MLA(用于 DeepSeek V3 和 R1)与常规 MHA 的比较。1.2 混合专家(MoE) MoE将传统的前馈模块替换为多个专家层,每个专家层也是一个前馈模块。在推理时,一个路由器会选择一小部分专家进行激活。例如,DeepSeek V3有256个专家,但每次推理仅激活9个专家(1个共享专家和8个由路由器选择的专家)。 V3/R1 中的混合专家 (MoE) 模块(右)与具有标准前馈块的 LLM(左)的比较图。
2. OLMo 2****2.1 归一化层放置OLMo 2采用后归一化(Post-Norm)策略,与大多数LLM采用的前归一化(Pre-Norm)不同。这种设计旨在提高训练稳定性。在OLMo 2中,归一化层被放置在注意力模块和前馈模块之后,而不是之前。这种设计与原始Transformer架构中的Post-LN类似,但使用了RMSNorm而非LayerNorm。Post-Norm、Pre-Norm和OLMo 2的Post-Norm变体的对比图。
研究表明,后归一化有助于训练稳定性,尤其是在不使用精心设计的学习率预热策略时。OLMo 2的训练损失曲线表明,这种设计在训练过程中表现更为稳定。Pre-Norm(如GPT-2、Llama 3和许多其他模型中使用的)与OLMo 2的Post-Norm变体的训练稳定性对比图。
2.2 QK-NormQK-Norm是在多头注意力模块中引入的额外RMSNorm层,应用于查询(q)和键(k)之前。这种设计有助于在应用RoPE之前对输入进行归一化,从而减少训练过程中的数值不稳定。
OLMo 2 和 Llama 3;可以看出,除了 OLMo 2 仍然使用传统的 MHA 而非 GQA 之外,它们的架构在其他方面相对相似。Llama 3 和 OLMo 2 的架构比较。
3. Gemma 3****3.1 滑动窗口注意力滑动窗口注意力旨在减少KV缓存的内存需求,同时保持模型的性能。这种设计特别适用于需要处理长序列的任务。通过滑动窗口注意力实现的KV缓存内存节省。
滑动窗口注意力限制了每个查询位置的上下文范围,使其仅关注局部窗口内的内容。与传统的全局注意力机制相比,这种设计显著减少了KV缓存的内存占用。例如,Gemma 3将滑动窗口大小从Gemma 2的4096减少到1024,并调整了全局与局部注意力的比例。常规注意力(左)和滑动窗口注意力(右)的对比图。
研究表明,滑动窗口注意力对模型的建模性能影响极小,但在内存使用上带来了显著的优化。这种设计使得Gemma 3在处理长序列时更加高效。常规注意力(左)和滑动窗口注意力(右)的对比图。
3.2 归一化层放置Gemma 3在注意力模块和前馈模块前后都放置了RMSNorm层。这种设计结合了前归一化和后归一化的优点,既保持了训练稳定性,又提高了推理效率。OLMo 2和Gemma 3的架构对比图;注意Gemma 3中额外的归一化层。
4. Mistral Small 3.1Mistral Small 3.1通过自定义分词器、缩小KV缓存和减少层数来优化模型。此外,它放弃了滑动窗口注意力,转而使用更高效的FlashAttention技术。这些优化使得Mistral Small 3.1在推理延迟上优于Gemma 3,同时保持了较高的性能。这种设计特别适合需要快速推理的应用场景。OLMo 2和Gemma 3的架构对比图;注意Gemma 3中额外的归一化层。
5. Llama 4Llama 4采用了与DeepSeek V3类似的架构,但在某些细节上进行了优化,以提高模型的性能和效率。深度求索V3(6710亿参数)和Llama 4 Maverick(4000亿参数)的架构对比图。
Llama 4使用了分组查询注意力(GQA)而非多头潜在注意力(MLA),并且在MoE模块中使用了更少但更大的专家。此外,Llama 4在每个Transformer块中交替使用MoE模块和密集模块。6. Qwen3****6.1 密集模型Qwen3 0.6B和Llama 3 1B的架构对比图
Qwen3的密集模型采用了较深的架构(更多Transformer块),具有更多的层,而 Llama 3 是一种更宽的架构,具有更多的注意力头。Qwen3 的内存占用较小,但生成速度较慢。6.2 MoE模型DeepSeek-V3 和 Qwen3 235B-A22B 的架构比较。
Qwen3的MoE模型采用了与DeepSeek V3类似的架构,但在某些细节上有所不同,例如不使用共享专家。这种设计使得模型在训练时能够学习更多知识,而在推理时保持高效。7. SmolLM3SmolLM3 架构看起来相当标准。不过,最有趣的一点或许是它使用了 NoPE(无位置嵌入)。 Qwen3 4B 和 SmolLM3 3B 的架构比较。**7.1 无位置嵌入(NoPE)**NoPE不使用任何位置嵌入(绝对位置嵌入或旋转位置嵌入),而是依赖因果注意力掩码来保持序列的自回归顺序。这种设计使得模型在训练过程中能够学习到隐式的位置信息。绝对位置嵌入示例
研究表明,NoPE在长度泛化方面表现更好,即在处理更长序列时性能下降较少。这种设计使得SmolLM3在处理长序列任务时表现优异。8. Kimi 2Kimi 2采用了DeepSeek V3的架构,并进行了扩展。它使用了Muon优化器而非AdamW,这可能是其训练损失曲线表现优异的原因之一。此外,Kimi 2在MoE模块中使用了更多的专家,在MLA模块中使用了更少的头。DeepSeek V3 和 Kimi K2 的架构比较。
这些设计使得Kimi 2在训练过程中表现优异,训练损失曲线平滑且下降迅速。这可能有助于该模型跃居上述基准测试的榜首
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。