在当下的大模型时代,模型规模的持续扩张已然成为提升性能的核心驱动力。传统的“密集”(Dense)模型架构,在每次推理时都需动用模型的全部参数,这使其面临着计算成本与能耗的严峻挑战。

在此背景下,混合专家模型(Mixture-of-Experts, MoE)作为一种革新性的稀疏架构应运而生。截至2025年,MoE技术已成为构建万亿参数级别超大语言模型(LLM)以及高效多模态模型的主流技术路线之一。

MoE的核心思想在于“条件计算”(Conditional Computation),它将庞大的神经网络拆解为多个相对独立的“专家”子网络,并引入“门控网络”(Gating Network)或“路由器”(Router),以此动态、有选择性地激活部分专家来处理当前输入。
简单来说,MoE把复杂任务分解为多个子任务,每个子任务由专门的专家负责处理。在MoE模型中,“专家”承担学习和处理不同信息的职责,“路由器”则依据输入智能挑选最合适的专家进行处理,并将选定专家的输出作为最终结果。
这种机制使得模型总参数量得以大幅增加,提升了模型容量与知识存储能力,同时在每次前向传播时,实际计算量(FLOPs)能够维持在较低水平,实现了模型规模与计算效率的“解耦”。

1、MoE模型发展历程回顾
MoE模型的概念最早可追溯至1991年的论文“Adaptive Mixture of Local Experts”,由Michael Jordan和Geoffrey Hinton等人提出。这一开创性论文为MoE模型奠定了基础,其核心思路是采用“分而治之”的策略,将复杂问题分解为子问题,交由专门的模型处理。MoE架构模拟了人类专家团队的协作模式,每个专家专注于特定任务或领域,门控网络则根据输入特征动态分配计算资源,这种设计在保持高性能的同时,有效降低了计算复杂度。

在2010至2015年期间,组件专家和条件计算两个领域推动了混合专家模型(MoE)的发展。组件专家将MoE嵌入深层网络,使其更为高效且规模更大;条件计算则通过动态激活网络组件,提升了计算效率。
2017年,谷歌研究团队在论文“Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer”中,将MoE模型与LSTM(长短期记忆网络)相结合,引入稀疏性,实现了大规模模型的快速推理,主要应用于翻译领域,但也面临高通信成本和训练不稳定等难题。
此后,MoE模型的研究不断深入拓展。2020年,谷歌的GShard项目首次将MoE技术引入Transformer架构,并提供了高效的分布式并行计算架构,推动了MoE模型在自然语言处理领域的应用。2021年,谷歌的Switch Transformer和GLaM模型进一步挖掘了MoE技术在自然语言处理中的潜力,通过优化门控机制和专家设计,取得了更出色的性能表现。近年来,MoE模型的应用范围持续扩大,不仅在自然语言处理领域持续突破,还在计算机视觉、多模态学习等领域得到广泛研究与应用。
2、MoE模型核心架构与运作机制
MoE架构并非单一固定的设计,但其核心组件与工作流程具有共通之处。典型的MoE层通常嵌入在Transformer架构中,用于替换前馈网络(Feed-Forward Network, FFN)层。其结构如下:

- 输入:MoE层接收来自前一层(通常是自注意力层)的每个Token的表征向量(Token Representation)。
- 门控网络 (Gating Network) :输入的Token表征先被送入轻量级的门控网络,该网络为每个Token计算一组权重,以此决定该Token应分配给哪些专家网络处理。
- 专家网络 (Expert Networks) :模型包含一组(如8个、64个或更多)并行的专家网络。每个专家通常是标准的FFN(即两个线性层加一个非线性激活函数),它们结构相同,但训练后会学习到不同参数,形成功能上的“专长”。
- 稀疏激活与加权组合:依据门控网络的输出,每个Token仅被发送给得分最高的k个专家(k通常为1或2)。专家处理完Token后,其输出会根据门控网络计算的权重进行加权求和,形成MoE层的最终输出。
- 残差连接:与标准Transformer一致,MoE层的输出会通过残差连接与该层输入相加,随后进行层归一化。
这种设计的创新性在于,实现了总参数量与激活参数量的分离。以拥有8个专家的MoE模型为例,其总参数量约为一个FFN层参数量乘以8,但对于任一Token的单次前向传播,计算量(FLOPs)仅相当于激活了k个专家(如k = 2),远低于同等总参数量的稠密模型。这正是Mixtral 8x7B模型(总参数46.7B,激活参数约13B)能够以远低于Llama 2 70B的推理成本,达到甚至超越其性能的根本原因。
MoE架构三大核心组件
MoE架构主要包含三大核心组件,分别为输入层、门控网络和专家网络。输入层负责接收来自前一层的Token表征向量;门控网络根据输入为每个Token计算权重,决定Token的分配;专家网络由多个并行的子网络构成,每个专家专注于特定类型的任务处理。

工作原理:条件计算与稀疏激活
MoE的工作流程可概括为“分发-计算-整合”三步:
- 分发 (Dispatch) :输入批次中的每个令牌,都要经过门控网络,由门控网络为其选择Top-K个最合适的专家。
- 计算 (Compute) :将令牌发送给各自被选中的专家进行并行计算,未被选中的专家则不参与此次计算。
- 整合 (Combine) :将每个令牌对应的K个专家的输出,根据门控网络给出的权重进行加权求和,从而形成最终的输出。
通过这种方式,MoE模型虽总参数量庞大(例如,Mixtral 8x7B模型拥有8个专家,总参数约47B,但实际推理时每个令牌只激活2个专家,计算量仅相当于一个12.9B的密集模型),但其推理时的计算成本(FLOPs)仅与激活的专家数量成正比,远低于同等参数规模的密集模型 。
3、MoE模型训练挑战与关键优化技术
尽管MoE在扩展性方面优势显著,但其训练过程远比密集模型复杂,需要一系列精巧的算法技术来保障训练的稳定性与效率。
核心挑战:负载不均衡
在训练过程中,一个常见且棘手的问题是负载不均衡(Load Imbalance):门控网络可能倾向于频繁选择少数几个“热门”专家,而其他专家则很少被激活,成为“冷门”专家。这会导致模型训练效率低下,部分参数得不到充分训练,最终损害模型性能 。
关键优化技术详解
-
辅助负载均衡损失 (Auxiliary Load Balancing Loss)
- 目的:这是解决负载不均衡最经典且常用的方法。其核心思路是在主任务损失(如交叉熵损失)之外,额外添加一项损失函数,用于惩罚专家负载的不均匀分配,鼓励所有专家被均匀利用 。
- 数学公式:该损失函数有多种形式,一种常见的形式源自Switch Transformer,其定义如下 :

-
带噪声的Top-K门控 (Noisy Top-K Gating)
- 目的:为增加路由过程的随机性,避免门控网络在训练早期就“固化”其选择偏好,研究者提出在门控网络的logit上添加高斯噪声的方法 。
- 机制:在计算最终的Top-K选择之前,向门控网络的输出添加一个小的随机噪声。这有助于在训练初期进行更广泛的探索,让更多专家有机会被激活和训练,从而提升模型的稳定性和最终性能 。
-
专家容量因子 (Expert Capacity Factor)
- 目的:为从硬件层面强制避免单个专家过载,MoE系统会为每个专家设置一个“容量”上限,即在一个批次中最多能处理的令牌数量 。
- 机制:容量通常按批次中令牌总数和专家数量的平均值来设定,再乘以一个“容量因子”(Capacity Factor, C)。例如,
C = 1.25意味着每个专家的容量是平均负载的125%。若路由到某个专家的令牌数超过其容量,多余的令牌会被“丢弃”(dropped),其表示将直接通过残差连接传递到下一层,不经过专家计算 。这是一种在计算效率和模型性能之间的权衡。
-
新兴的无辅助损失均衡方法 (Auxiliary-Loss-Free Balancing Methods)
- 背景:尽管辅助损失有效,但它会引入额外的超参数,且可能对主任务的梯度产生干扰。因此,自2023年以来,无辅助损失的均衡方法成为研究热点。
- 机制:这类方法不再依赖独立的损失项,而是直接在路由机制本身进行调整。例如,DeepSeek-V2模型采用了一种策略,通过动态调整每个专家的路由偏置(bias)来直接控制负载,如果一个专家过热,就降低其偏置,反之则提高,从而实现无需额外损失项的自适应负载均衡。
分布式训练与并行策略
由于MoE模型参数量巨大,单张GPU无法承载,必须进行分布式训练。除常见的数据并行和张量并行外,MoE引入了独特的专家并行(EP):将不同的专家分布到不同的GPU(或节点)上。
- 混合并行:现代MoE训练框架(如Megatron-LM、DeepSpeed)通常采用数据并行、张量并行和专家并行相结合的混合并行策略,以最大化利用集群资源 。
- 通信优化:专家并行会引入密集的All-to-All通信模式,即每个GPU都需要将令牌发送给其他GPU上的专家,并接收计算结果。这是训练的主要瓶颈。优化手段包括使用高性能网络互联(如NVLink、Infiniband)、优化通信库(如NCCL)以及设计网络拓扑感知的并行策略 。
面向边缘设备的部署与推理优化
将庞大的MoE模型部署到手机、智能汽车等边缘设备上是一个新兴且充满挑战的研究方向。核心挑战在于边缘设备内存和算力极其有限,而MoE模型的总参数量巨大。其优化技术如下:
- 专家卸载 (Expert Offloading) :只在GPU/NPU上保留少量活跃专家或一个专家缓存,其余大量不常用的专家权重存储在相对较慢的CPU内存或闪存中,按需加载 。
- 缓存感知路由 (Cache-Aware Routing) :设计一种路由策略,使其在选择专家时,倾向于选择那些已经被加载到缓存中的专家,从而最大化缓存命中率,减少从慢速存储中加载专家所带来的延迟 。
- 模型蒸馏与压缩 (Model Distillation & Compression) :将一个大型MoE模型的知识蒸馏到一个更小的密集模型或更小规模的MoE模型中,使其适合边缘部署 。
EdgeMoE和SiDA-MoE等研究项目已验证了这些技术的可行性,能够在移动设备上实现显著的推理延迟降低(高达2 - 3倍)和内存占用减少。
开源框架与推理引擎
一系列开源工具极大地推动了MoE的普及和发展:
- DeepSpeed-MoE :微软推出的DeepSpeed库提供了成熟的MoE实现,集成了高效的CUDA内核、负载均衡策略和内存优化技术,支持万亿级别模型的训练与推理 。
- Tutel :同样来自微软,Tutel是一个专注于MoE层本身计算优化的库。它提供了高度优化的稀疏计算内核,可以作为插件集成到PyTorch等框架中,显著提升MoE层的计算效率 。
- FastMoE :一个由学术界主导的轻量级、易于使用的MoE训练系统,也基于PyTorch构建 。
- Megablocks :https://github.com/stanford-futuredata/megablocks
- Fairseq :https://github.com/facebookresearch/fairseq/tree/main/examples/moe_lm
- OpenMoE :https://github.com/XueFuzhao/OpenMoE
4、性能基准:MoE模型对比稠密模型
MoE模型的核心价值在于在相似甚至更低的计算成本下,达到或超越更大规模的密集模型的性能。大量研究和实践表明,MoE模型在性能和计算成本之间取得了更优的平衡。在相同的计算预算(FLOPs)下,MoE模型通常能展现出更低的困惑度(Perplexity)和更高的下游任务准确率 。
-
Switch Transformer:Google的研究显示,一个与T5-Base(220M参数)计算量相当的Switch Transformer模型,其性能可以媲美T5-Large(770M参数) 。在TPUv3硬件上,其推理速度比计算量匹配的密集模型快了高达7倍 。

-
GLaM:同样来自Google的GLaM模型,虽然总参数量高达1.2T,但其推理成本仅为GPT-3 (175B)的三分之一,却在多项零样本(Zero-shot)NLP任务上取得了更优异的成绩。

-
Mixtral 8x7B :由Mistral AI发布的开源模型,其以约13B的激活参数,在众多基准测试中击败了拥有70B参数的Llama 2 70B模型,成为开源社区的标杆。

性能对比:MoE vs. 稠密模型
| 评估维度 | 稠密模型 | MoE模型 | 分析 |
|---|---|---|---|
| 参数效率 | 低。所有参数在每次前向传播中都被激活。 | 高。 总参数量巨大,但每次仅激活一小部分。 | MoE以更高的参数量换取了更强的模型容量,但保持了计算成本的可控性。 |
| 训练成本 | 高。达到SOTA性能需要巨大的FLOPs。 | 相对更低。 在相同的性能水平下,MoE所需的训练FLOPs显著少于稠密模型。 | MoE的稀疏性使其成为“计算最优训练”的有效路径。 |
| 推理成本 | 高。与参数量成正比,延迟高,部署昂贵。 | 显著更低。 推理FLOPs和延迟取决于激活参数量,而非总参数量。 | 这是MoE在实际应用中最具吸引力的优势,使得更强大的模型能够被实际部署。 |
| 模型性能 | 遵循Scaling Law,性能随参数和数据增长。 | 在同等激活参数下,性能通常不如稠密模型;但在同等计算成本下,性能远超稠密模型。 | MoE通过增加总参数量,为模型提供了更广阔的“解空间”,从而在同等计算预算下获得更高智能。 |
挑战与权衡
尽管推理高效,但MoE模型也存在固有挑战:
- 巨大的内存占用:需要存储所有专家的参数,对GPU显存要求极高。
- 复杂的训练系统:需要专门的并行策略(如专家并行)和通信优化,训练基础设施复杂。
- 通信开销:专家并行中的All-to-All通信是主要瓶颈,尤其是在大规模集群中。
5、MoE的应用领域扩展:从NLP到视觉与多模态
MoE技术最初在自然语言处理(NLP)领域成果斐然,但其成功已迅速拓展到计算机视觉和多模态等更广泛的领域。
在视觉领域,研究者将MoE层集成到Vision Transformer (ViT)中,用以替代标准MLP模块,由此诞生了如V-MoE (Vision MoE)等模型。V-MoE能够根据图像块(patches)的内容,将其路由到专门处理不同视觉模式(如纹理、边缘、对象部分)的专家。
MoE在处理融合文本、图像、音频等多种数据类型的多模态任务中展现出巨大潜力。通过MoE,模型可以为不同模态或不同任务动态分配专家:一些专家可能专门处理文本信息,另一些专家处理视觉信息,还有一些专家则负责跨模态的对齐与融合 。

自2023年以来,涌现出大量多模态MoE模型,如LIMoE、MoE-LLaVA、Ming-Lite-Omni等。例如,MoE-LLaVA在多个视觉问答(VQA)基准上,其性能显著优于其对应的非MoE密集模型基线 。
混合专家模型(MoE)凭借其独特的架构设计与创新的工作机制,在模型规模与计算效率的平衡上取得了重大突破。尽管在训练和部署过程中面临诸多挑战,但其在性能表现和应用拓展方面展现出的巨大潜力,使其成为推动人工智能技术发展的关键力量。从自然语言处理到计算机视觉,再到多模态领域,MoE正逐步重塑大模型的发展格局,为实现更高效、更智能的AI系统提供了可行的路径。随着相关技术的不断优化与完善,MoE有望在未来的人工智能应用中发挥更为核心的作用,助力解决更多复杂的实际问题。
6、如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】


7、为什么要学习大模型?
我国在A大模型领域面临人才短缺,数量与质量均落后于发达国家。2023年,人才缺口已超百万,凸显培养不足。随着AI技术飞速发展,预计到2025年,这一缺口将急剧扩大至400万,严重制约我国AI产业的创新步伐。加强人才培养,优化教育体系,国际合作并进是破解困局、推动AI发展的关键。


8、大模型入门到实战全套学习大礼包
1、大模型系统化学习路线
作为学习AI大模型技术的新手,方向至关重要。 正确的学习路线可以为你节省时间,少走弯路;方向不对,努力白费。这里我给大家准备了一份最科学最系统的学习成长路线图和学习规划,带你从零基础入门到精通!

2、大模型学习书籍&文档
学习AI大模型离不开书籍文档,我精选了一系列大模型技术的书籍和学习文档(电子版),它们由领域内的顶尖专家撰写,内容全面、深入、详尽,为你学习大模型提供坚实的理论基础。

3、AI大模型最新行业报告
2025最新行业报告,针对不同行业的现状、趋势、问题、机会等进行系统地调研和评估,以了解哪些行业更适合引入大模型的技术和应用,以及在哪些方面可以发挥大模型的优势。

4、大模型项目实战&配套源码
学以致用,在项目实战中检验和巩固你所学到的知识,同时为你找工作就业和职业发展打下坚实的基础。

5、大模型大厂面试真题
面试不仅是技术的较量,更需要充分的准备。在你已经掌握了大模型技术之后,就需要开始准备面试,我精心整理了一份大模型面试题库,涵盖当前面试中可能遇到的各种技术问题,让你在面试中游刃有余。

适用人群

第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。
这份完整版的大模型 AI 学习资料已经上传优快云,朋友们如果需要可以微信扫描下方优快云官方认证二维码免费领取【保证100%免费】

836

被折叠的 条评论
为什么被折叠?



