大模型架构设计全景解析:DeepSeek R1、Kimi K2等8种架构技术剖析

从最早的 GPT 到现在,已经过去7年了。回头看看 GPT-2(2019年),再看看最新的 DeepSeek-V3 和 Llama 4(2024-2025年),你可能会惊讶:这些大模型在结构上居然还是那么像!

当然,细节上还是有不少改进的,比如:位置编码从固定的变成了旋转的(RoPE),注意力机制从多头注意力(Multi-Head Attention)换成了更省算力的分组查询注意力(Grouped-Query Attention),激活函数也从 GELU 换成了更高效的 SwiGLU。但说到底,这些只是小修小补,底层架构还是原来那一套。

那么问题来了:这些大模型到底变没变?还是说,我们只是在给老架构“抛光打蜡”?

其实,要比较这些大模型,搞清楚它们为什么表现好(或者不好)特别难,因为训练数据、训练方法和超参数都不一样,而且很多细节都没公开。

不过,我觉得还是有必要专门聊聊架构本身的变化,看看2025年的开发者们到底在折腾啥。(下图是本文要讲的几个代表性模型)

在这里插入图片描述

所以,这篇文章不聊跑分,也不聊训练技巧,就专门讲讲现在主流开源大模型在架构上的新花样。

下文我们对主流的8个开源大模型(DeepSeek V3/R1、OLMo 2、Gemma 3、Mistral 3.1、Llama 4、Qwen 3、SmolLM3、Kimi K2)架构设计详细剖析之。

8种大模型技术架构剖析

1、DeepSeek V3/R1 大模型架构设计

DeepSeek V3/R1 通过两项关键架构设计技术优化了计算效率,使其在众多大语言模型中脱颖而出:多头潜在注意力(MLA)混合专家(MoE)

1.1 多头潜在注意力(MLA)

MLA 的核心目标是解决传统多头注意力(MHA)在大规模模型中内存占用过高的问题。与分组查询注意力(GQA)相比,MLA 通过进一步压缩键(Key)和值(Value)张量,显著降低了内存使用量。

在这里插入图片描述

  • MHA 与 GQA 的对比
    在 GQA 中,多个查询(Query)可以共享一组键值对,从而减少冗余。例如,当组大小为 2 时,两个查询共享一个键值对,这已经是一个显著的改进。然而,MLA 更进一步,通过压缩技术进一步优化内存占用。

  • MLA 的工作原理
    在 MLA 中,键和值张量在存储到 KV 缓存之前会被压缩到一个低维空间。在推理阶段,这些压缩的张量会被重新投影回原始大小。虽然这一过程增加了额外的矩阵乘法操作,但显著降低了内存占用,从而在推理时能够处理更长的上下文。

  • MLA 与 MHA 的对比
    MLA 通过压缩技术,显著减少了 KV 缓存的内存占用,同时保持了高效的推理能力。

    在这里插入图片描述

1.2 混合专家(MoE)

MoE 将传统的前馈模块替换为多个专家层,每个专家层本身也是一个前馈模块。在推理阶段,一个路由器会选择一小部分专家进行激活,从而实现计算资源的高效利用。

图片

  • MoE 的工作原理
    以 DeepSeek V3 为例,模型中包含 256 个专家层,但每次推理时,仅激活 9 个专家(1 个共享专家和 8 个由路由器选择的专家)。这种设计使得模型在推理时只需激活一小部分专家,从而显著降低了计算量。
  • MoE 与传统前馈模块的对比
    传统的前馈模块在每次推理时都会激活所有神经元,而 MoE 通过选择性激活专家,显著降低了计算量,同时保留了模型的高容量和多样性。

通过 MLA 和 MoE,DeepSeek V3/R1 在保持高性能的同时,显著优化了内存和计算资源的使用,使其在大规模应用中更具优势。

2、OLMo 2 大模型架构设计

2.1 归一化层放置:后归一化(Post-Norm)的妙用

OLMo 2 采用了后归一化(Post-Norm)策略,这与大多数大语言模型(LLM)常用的前归一化(Pre-Norm)截然不同。这种架构设计的核心目的是提升训练过程的稳定性。

  • 后归一化与前归一化的对比
    在 OLMo 2 中,归一化层被放置在注意力模块和前馈模块的后面,而不是像传统方法那样放在前面。这种设计与最初的 Transformer 架构中的 Post-LN(后归一化)类似,但它使用了 RMSNorm 而不是常见的 LayerNorm

    图片

  • 稳定性提升
    研究表明,后归一化在训练时更加稳定,尤其是在没有精心设计的学习率预热策略的情况下。OLMo 2 的训练损失曲线显示,这种设计在训练过程中表现得更为平稳。

  • 对比图示
    下图展示了 Pre-Norm(如 GPT-2、Llama 3 等模型中使用)与 OLMo 2 的 Post-Norm 变体在训练稳定性上的对比。

    图片

2.2 QK-Norm:多头注意力模块中的额外归一化

QK-Norm 是 OLMo 2 在多头注意力模块中引入的一个额外的 RMSNorm 层,它被应用于查询(q)和键(k)之前。这种设计的主要作用是在应用 RoPE(旋转位置编码)之前对输入进行归一化,从而减少训练过程中的数值不稳定。

图片

  • 架构对比
    与 Llama 3 相比,OLMo 2 的架构在某些方面相对相似,但有一个关键区别:OLMo 2 仍然使用传统的多头注意力(MHA),而不是 GQA(分组查询注意力)。

  • 对比图示
    下图展示了 Llama 3 和 OLMo 2 的架构对比。

    图片

通过这些优化,OLMo 2 在训练稳定性和数值稳定性方面表现出色,为大语言模型的开发提供了新的思路和方向。
在这里插入图片描述

3、Gemma 3 大模型架构设计

3.1 滑动窗口注意力:内存优化与性能平衡

Gemma 3 采用了滑动窗口注意力机制,旨在减少 KV 缓存的内存需求,同时保持模型的性能。这种设计特别适合处理长序列的任务,例如长文本生成或长文档理解。

  • 内存优化
    滑动窗口注意力通过限制每个查询位置的上下文范围,使其仅关注局部窗口内的内容,从而显著减少了 KV 缓存的内存占用。例如,Gemma 3 将滑动窗口大小从 Gemma 2 的 4096 减少到 1024,并调整了全局与局部注意力的比例。

    在这里插入图片描述

  • 性能对比
    与传统的全局注意力机制相比,滑动窗口注意力在内存使用上带来了显著的优化,同时对模型的建模性能影响极小。这种设计使得 Gemma 3 在处理长序列时更加高效。

  • 对比图示
    下图展示了常规注意力(左)和滑动窗口注意力(右)的对比。

    图片

3.2 归一化层放置:结合前归一化与后归一化的优点

Gemma 3 在注意力模块和前馈模块的前后都放置了 RMSNorm 层。这种设计结合了前归一化和后归一化的优点,既保持了训练稳定性,又提高了推理效率。

  • 归一化层设计
    在 Gemma 3 中,每个注意力模块和前馈模块的前后都分别放置了一个 RMSNorm 层。这种设计既利用了前归一化在训练过程中的稳定性,又利用了后归一化在推理阶段的高效性。

  • 架构对比
    下图展示了 OLMo 2 和 Gemma 3 的架构对比,注意 Gemma 3 中额外的归一化层。

    图片

通过这些创新,Gemma 3 在处理长序列任务时表现出了卓越的性能和高效的内存管理能力,为大语言模型在实际应用中的优化提供了新的思路。

4、Mistral Small 3.1 大模型架构设计

Mistral Small 3.1 通过一系列巧妙的优化手段,使其在推理延迟上表现出色,同时保持了较高的性能。这些优化措施包括:

4.1 自定义分词器

Mistral Small 3.1 采用了自定义分词器,能够更高效地处理输入文本,减少不必要的计算开销。

4.2 缩小 KV 缓存

通过优化 KV 缓存的大小,Mistral Small 3.1 在内存使用上更加高效,从而降低了推理时的内存需求。

4.3 减少层数

减少模型层数,直接降低了计算复杂度,使得模型在推理时更加轻量级,速度更快。

4.4 FlashAttention 技术

Mistral Small 3.1 放弃了滑动窗口注意力,转而采用更高效的 FlashAttention 技术。FlashAttention 能够在不牺牲性能的前提下,大幅减少推理延迟。

4.5 性能对比

这些优化使得 Mistral Small 3.1 在推理延迟上优于 Gemma 3,同时保持了较高的性能。这种设计特别适合需要快速推理的应用场景,例如实时对话、在线推荐等。

4.6 架构对比

下图展示了 OLMo 2 和 Gemma 3 的架构对比,注意 Gemma 3 中额外的归一化层。

图片

5、Llama 4 大模型架构设计

5.1 架构概览

Llama 4 在整体架构上与 DeepSeek V3 有相似之处,但在一些关键细节上进行了优化,从而提升了模型的性能和效率。

5.2 关键优化点

5.2.1 分组查询注意力(GQA)

与 DeepSeek V3 采用的多头潜在注意力(MLA)不同,Llama 4 选择了分组查询注意力(GQA)。这种选择在某些场景下能够提供更优的性能表现,同时保持了计算效率。

5.2.2 混合专家(MoE)模块的调整

在 MoE 模块的设计上,Llama 4 采用了更少但更大的专家。这种设计减少了专家之间的竞争,同时提升了每个专家的处理能力,从而在整体上提高了模型的效率。

5.2.3 Transformer 块的交替使用

Llama 4 在每个 Transformer 块中交替使用 MoE 模块和密集模块。这种交替结构使得模型在处理不同类型的输入时更加灵活,同时平衡了计算资源的使用。

5.3 架构对比

下图展示了 DeepSeek V3(6710 亿参数)和 Llama 4 Maverick(4000 亿参数)的架构对比。

图片

通过这些优化,Llama 4 在保持与 DeepSeek V3 类似架构的基础上,进一步提升了性能和效率,使其在多种应用场景中表现出色。

6、Qwen 3 大模型架构设计

6.1 密集模型:深度架构的探索

Qwen3 的密集模型在架构设计上选择了“深度优先”的策略,与 Llama 3 的“宽度优先”形成鲜明对比。

  • *架构对比*
    Qwen3 0.6B 的密集模型采用了较深的架构,拥有更多的 Transformer 块,这意味着它有更多层次来逐步处理和理解输入信息。相比之下,Llama 3 1B 则是一种更宽的架构,它通过增加更多的注意力头来提升模型的并行处理能力。

图片

  • 性能特点
    Qwen3 的这种深度架构使得其内存占用相对较小,但生成速度较慢。这是因为更多的层次意味着更复杂的计算过程,但同时也让模型能够更细致地处理信息,适合对生成质量要求较高的场景。

6.2 MoE 模型:高效训练与推理

Qwen3 的 MoE 模型在架构上借鉴了 DeepSeek V3 的设计,但在一些关键细节上进行了优化。

  • 架构对比
    与 DeepSeek V3 类似,Qwen3 的 MoE 模型也采用了混合专家(MoE)机制,将前馈模块拆分为多个专家层。然而,Qwen3 的 MoE 模型不使用共享专家,而是让每个输入独立选择最适合的专家进行处理。

图片

  • 性能特点
    这种设计使得模型在训练时能够学习更多知识,因为每个专家可以独立地处理特定类型的输入,从而提升模型的泛化能力。而在推理时,由于只激活少数专家,模型能够保持高效的计算性能,适合需要快速响应的应用场景。

通过这些设计,Qwen3 在密集模型和 MoE 模型上都找到了适合自身需求的架构平衡,既提升了性能,又优化了效率。

7、SmolLM3 大模型架构设计

SmolLM3 的架构设计看似常规,但其最大亮点在于采用了独特的 NoPE(无位置嵌入) 技术。

7.1 无位置嵌入(NoPE):抛弃传统,拥抱创新

  • NoPE 的核心理念
    NoPE(No Position Embedding)完全摒弃了传统的位置嵌入方式,无论是绝对位置嵌入还是旋转位置嵌入(RoPE),都不再使用。相反,它依赖因果注意力掩码(Causal Masking)来维持序列的自回归顺序。这意味着模型在训练过程中能够自主学习到隐式的位置信息,而不是依赖显式的位置编码。

  • 对比传统位置嵌入
    传统的位置嵌入(如绝对位置嵌入)会为序列中的每个位置分配一个固定的嵌入向量,帮助模型理解位置关系。然而,这种方法在处理长序列时可能会遇到性能瓶颈。例如,绝对位置嵌入在处理过长序列时,位置信息可能会变得过于复杂,导致模型难以有效学习。

图片

  • NoPE 的优势
    研究表明,NoPE 在长度泛化方面表现出色,即在处理更长序列时,性能下降幅度较小。这种设计使得 SmolLM3 在处理长序列任务时表现优异,例如长文本生成、长文档理解等场景。
  • 架构对比
    下图展示了 Qwen3 4B 和 SmolLM3 3B 的架构对比,注意 SmolLM3 中独特的 NoPE 设计。

图片

通过这种创新设计,SmolLM3 在保持架构简洁的同时,显著提升了对长序列任务的处理能力,为大语言模型的设计提供了新的思路。

8、Kimi K2 大模型架构设计

8.1 架构设计

Kimi K2 在架构上继承并扩展了 DeepSeek V3 的设计。它采用了混合专家(MoE)架构,拥有 384 个专家,每层激活其中 8 个,这种稀疏设计在保证性能的同时优化了计算效率。此外,Kimi K2 在多头潜在注意力(MLA)模块中使用了 更少的头(64 个),进一步降低了推理过程中的资源消耗。

8.2 MuonClip 优化器

Kimi K2 的一大亮点是采用了 MuonClip 优化器。这种优化器在 Muon 的基础上引入了 QK-Clip 技术,通过动态裁剪注意力 logits 来防止训练不稳定。具体来说,QK-Clip 在每次更新后直接对查询(query)和键(key)投影的权重矩阵进行重缩放,从而在源头控制注意力 logits 的规模。这一改进使得 Kimi K2 在 15.5 万亿 token 的预训练过程中实现了零损失 spike,确保了大规模训练的稳定性和连续性。

8.3 训练表现

这些设计使得 Kimi K2 在训练过程中表现优异,训练损失曲线平滑且下降迅速。这种优异的训练表现可能有助于 Kimi K2 在多个基准测试中跃居榜首,其性能与谷歌的 Gemini、Anthropic 的 Claude 和 OpenAI 的 ChatGPT 等顶级专有模型不相上下。

图片

8.4 架构对比

下图展示了 DeepSeek V3 和 Kimi K2 的架构对比。可以看到,Kimi 2 在 MoE 模块中使用了更多的专家,而在 MLA 模块中使用了更少的头,这些调整使其在处理长上下文时更加高效。

图片

通过这些创新设计,Kimi K2 不仅在训练效率和稳定性上表现出色,还在多个领域实现了卓越的性能,成为开源模型中的佼佼者。

8种大模型架构设计对比总结剖

今天,我们深入探讨了几款前沿大语言模型(LLM)的架构设计及其优化策略。这些模型通过独特的架构创新,在性能、效率和稳定性方面取得了显著进展。

1. DeepSeek V3/R1

  • 多头潜在注意力(MLA):通过压缩键和值张量,显著降低了内存占用,优化了推理效率。
  • 混合专家(MoE):在推理时仅激活部分专家,大幅减少了计算量,同时保留了模型的高容量。

2. OLMo 2

  • 后归一化(Post-Norm):与传统的前归一化相比,后归一化提升了训练稳定性,尤其在没有精心设计的学习率预热策略时。
  • QK-Norm:在多头注意力模块中引入额外的 RMSNorm 层,减少数值不稳定,优化训练过程。

3. Gemma 3

  • 滑动窗口注意力:通过限制每个查询位置的上下文范围,显著减少了 KV 缓存的内存占用,适合处理长序列任务。
  • 归一化层放置:在注意力模块和前馈模块的前后都放置了 RMSNorm 层,结合了前归一化和后归一化的优点,提升了训练稳定性和推理效率。

4. Mistral Small 3.1

  • 自定义分词器:优化了输入文本的处理,减少了计算开销。
  • 缩小 KV 缓存:降低了内存需求,提升了推理效率。
  • FlashAttention 技术:替代了滑动窗口注意力,进一步减少了推理延迟,适合快速推理场景。

5. Llama 4

  • 分组查询注意力(GQA):相比多头潜在注意力(MLA),GQA 提供了更优的性能表现。
  • 混合专家(MoE)模块调整:采用更少但更大的专家,减少了专家间的竞争,提升了处理能力。
  • Transformer 块交替使用:在每个 Transformer 块中交替使用 MoE 模块和密集模块,提升了灵活性和效率。

6. Qwen3

  • 密集模型:采用较深的架构,拥有更多 Transformer 块,适合对生成质量要求较高的场景。
  • MoE 模型:借鉴 DeepSeek V3 的架构,但不使用共享专家,提升了训练时的知识学习能力和推理时的效率。

7. SmolLM3

  • 无位置嵌入(NoPE):完全摒弃传统位置嵌入,依赖因果注意力掩码维持序列顺序,提升了长度泛化能力,适合长序列任务。

8. Kimi K2

  • 架构扩展:基于 DeepSeek V3,采用更多专家和更少的注意力头,优化了计算效率。
  • MuonClip 优化器:引入 QK-Clip 技术,防止训练不稳定,确保了大规模训练的连续性。
  • 训练表现:训练损失曲线平滑且下降迅速,有助于模型在基准测试中取得优异成绩。

这些大模型通过不同的架构优化策略,在各自的领域中展现了卓越的性能和效率。这些创新不仅推动了大语言模型的发展,也为未来的大模型架构设计提供了宝贵的参考。

普通人如何抓住AI大模型的风口?

领取方式在文末

为什么要学习大模型?

目前AI大模型的技术岗位与能力培养随着人工智能技术的迅速发展和应用 , 大模型作为其中的重要组成部分 , 正逐渐成为推动人工智能发展的重要引擎 。大模型以其强大的数据处理和模式识别能力, 广泛应用于自然语言处理 、计算机视觉 、 智能推荐等领域 ,为各行各业带来了革命性的改变和机遇 。

目前,开源人工智能大模型已应用于医疗、政务、法律、汽车、娱乐、金融、互联网、教育、制造业、企业服务等多个场景,其中,应用于金融、企业服务、制造业和法律领域的大模型在本次调研中占比超过 30%。
在这里插入图片描述

随着AI大模型技术的迅速发展,相关岗位的需求也日益增加。大模型产业链催生了一批高薪新职业:
在这里插入图片描述

人工智能大潮已来,不加入就可能被淘汰。如果你是技术人,尤其是互联网从业者,现在就开始学习AI大模型技术,真的是给你的人生一个重要建议!

最后

只要你真心想学习AI大模型技术,这份精心整理的学习资料我愿意无偿分享给你,但是想学技术去乱搞的人别来找我!

在当前这个人工智能高速发展的时代,AI大模型正在深刻改变各行各业。我国对高水平AI人才的需求也日益增长,真正懂技术、能落地的人才依旧紧缺。我也希望通过这份资料,能够帮助更多有志于AI领域的朋友入门并深入学习。

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

大模型全套学习资料展示

自我们与MoPaaS魔泊云合作以来,我们不断打磨课程体系与技术内容,在细节上精益求精,同时在技术层面也新增了许多前沿且实用的内容,力求为大家带来更系统、更实战、更落地的大模型学习体验。

图片

希望这份系统、实用的大模型学习路径,能够帮助你从零入门,进阶到实战,真正掌握AI时代的核心技能!

01 教学内容

图片

  • 从零到精通完整闭环:【基础理论 →RAG开发 → Agent设计 → 模型微调与私有化部署调→热门技术】5大模块,内容比传统教材更贴近企业实战!

  • 大量真实项目案例: 带你亲自上手搞数据清洗、模型调优这些硬核操作,把课本知识变成真本事‌!

02适学人群

应届毕业生‌: 无工作经验但想要系统学习AI大模型技术,期待通过实战项目掌握核心技术。

零基础转型‌: 非技术背景但关注AI应用场景,计划通过低代码工具实现“AI+行业”跨界‌。

业务赋能突破瓶颈: 传统开发者(Java/前端等)学习Transformer架构与LangChain框架,向AI全栈工程师转型‌。

image.png

vx扫描下方二维码即可
在这里插入图片描述

本教程比较珍贵,仅限大家自行学习,不要传播!更严禁商用!

03 入门到进阶学习路线图

大模型学习路线图,整体分为5个大的阶段:
图片

04 视频和书籍PDF合集

图片

从0到掌握主流大模型技术视频教程(涵盖模型训练、微调、RAG、LangChain、Agent开发等实战方向)

图片

新手必备的大模型学习PDF书单来了!全是硬核知识,帮你少走弯路(不吹牛,真有用)
图片

05 行业报告+白皮书合集

收集70+报告与白皮书,了解行业最新动态!
图片

06 90+份面试题/经验

AI大模型岗位面试经验总结(谁学技术不是为了赚$呢,找个好的岗位很重要)图片
在这里插入图片描述

07 deepseek部署包+技巧大全

在这里插入图片描述

由于篇幅有限

只展示部分资料

并且还在持续更新中…

真诚无偿分享!!!
vx扫描下方二维码即可
加上后会一个个给大家发

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值