720亿参数稀疏大模型破局算力困境：Pangu Pro MoE架构革新与工程实践全解析-优快云博客

720亿参数稀疏大模型破局算力困境：Pangu Pro MoE架构革新与工程实践全解析

【免费下载链接】openPangu-Pro-MoE-72B-model openPangu-Pro-MoE (72B-A16B)：昇腾原生的分组混合专家模型项目地址: https://ai.gitcode.com/ascend-tribe/pangu-pro-moe-model

在大语言模型（LLM）参数规模竞赛进入白热化的当下，稀疏激活架构凭借"大而不重"的特性成为突破算力瓶颈的关键路径。然而，传统混合专家（MoE）模型在分布式部署中面临的专家负载失衡问题，长期制约着推理效率与吞吐量的提升。近日，研究者提出基于分组专家混合（MoGE）架构的720亿参数稀疏模型Pangu Pro MoE，通过创新性的专家分组路由机制与深度软硬件协同优化，在Ascend芯片平台上实现了负载均衡与性能突破的双重目标，为亚百亿参数模型树立了新的技术标杆。

架构革新：从负载失衡到理论最优的MoGE设计

传统MoE模型采用Top-K路由策略，仅为每个输入token激活少量专家，虽降低单token计算成本，但在分布式系统中导致专家激活频率差异悬殊。当专家分散部署于不同计算设备时，高频激活专家所在节点极易成为性能瓶颈（straggler），严重拖累整体效率。研究团队通过"不平衡分数"（IS）量化这一现象，其定义为批次内设备最大专家计算量与最小计算量之差除以批次大小。实验数据显示，传统Top-K路由的IS值普遍大于0，表明负载失衡是系统性问题。

MoGE架构的核心创新在于将N个专家确定性划分为M个互不重叠的组，每个组固定分配至特定计算设备。路由机制强制要求从每个组中激活K'个专家（总激活专家数K=M×K'），通过三级路由实现全局均衡：首先计算所有专家的全局Softmax分数，然后在各组内执行本地Top-K'选择，最终拼接各组结果形成门控分数。Pangu Pro MoE采用K'=1的配置，理论上使每个设备处理等量激活专家，实现IS=0的完美负载均衡。为进一步优化组内专家利用率，论文还引入基于全局Softmax权重的辅助负载均衡损失函数，通过梯度调节促进组内专家激活概率的均匀分布。

系统优化：面向Ascend平台的软硬协同设计

模型配置的确定过程充分考虑硬件特性，研究团队通过分层系统仿真策略，从内存带宽、延迟等粗粒度指标到算子级TFLOPS、拓扑结构等细粒度参数，针对Ascend 300I Duo和800I A2平台进行全面评估，最终确定包括隐藏层维度、注意力头数、专家数量在内的最优配置。模型总参数量达720亿，每个token仅激活160亿参数，在保持性能的同时大幅降低计算开销。

训练系统在前代Pangu Ultra MoE基础上实现多项突破：改进的分层EP All-to-All通信协议减少数据传输冗余，自适应流水线重叠机制提升计算资源利用率，结合重计算与内存交换技术的存储优化策略，使模型 FLOPS 利用率（MFU）提升35%。并行策略采用TP=8（张量并行）、EP=2（专家并行）、PP=5（流水线并行）、VPP=5（虚拟流水线并行）的组合配置，配合MoGE架构原生的算子优化，使Permute和gmm_up算子的最大执行时间差异降低50%以上。

推理系统创新采用分层混合并行（H2P）策略，针对不同模块定制并行方案：注意力模块使用DP2+TP4配置，专家模块采用TP2+EP4组合，共享专家则使用TP8并行。通信优化方面，通过替换注意力中的AllReduce操作、分解MoE中的全局AllReduce，结合多流融合与算子融合策略（GMMRS、AGMM）实现通信-计算重叠。量化压缩技术针对MoE模型特有挑战，提出专家感知的训练后量化方案，包括平滑聚合策略、路由 logits 分布对齐和专家级校准数据平衡，有效解决专家特异性离群值、路由敏感性和校准瓶颈问题。

训练与对齐：数据、策略与优化技术的深度融合

Pangu Pro MoE的训练流程分为预训练与后训练对齐两大阶段。预训练数据集规模达13万亿token，词汇表大小153376，涵盖网页文本、书籍、多语言数据、代码、STEM领域文献、工业知识、推理数据及合成数据。训练过程采用三阶段递进策略：通用阶段（9.6万亿token，4K序列长度）构建基础语言能力；推理阶段（3万亿token，32K序列长度）增加STEM、代码及合成思维链数据强化推理能力；退火阶段（0.4万亿token，32K序列长度）引入高质量、高难度及指令式数据优化模型对齐度。数据筛选采用领域感知的模型评估系统，确保训练数据质量与多样性。

后训练对齐包含有监督微调（SFT）与强化学习（RL）两大环节。SFT数据按推理类与非推理类3:1混合，基于多样性指标精选样本，分两阶段六轮训练，采用AdamW优化器与余弦学习率衰减策略。创新的检查点合并技术，通过组内合并与组间合并的双层策略，融合同一训练轨迹中不同阶段的同质中间检查点，有效提升模型泛化能力。RL阶段采用组相对策略优化（GRPO）算法，引入零优势掩码机制处理特殊样本，结合多源奖励系统（正确性、偏好度、辅助奖励）与课程数据混合策略，显著提升模型指令跟随能力。

性能验证：从算子优化到端到端效率的全面突破

推理系统的算子级优化带来显著性能提升。针对注意力机制中的KV缓存瓶颈，MulAttention算子采用大包KV传输与双循环流水线乒乓调度策略，实现端到端注意力计算4.5倍加速；面对分组矩阵乘法（GMM）瓶颈，SwiftGMM算子通过分块缓存策略、GEMV/GEMM动态选择及双缓冲区机制，使MTE2利用率高达95%。量化压缩方面，W8A8量化实现近无损精度，W4A8量化精度损失控制在可接受范围，配合KV缓存量化与稀疏化技术（KVTuner），进一步降低存储开销。

系统级性能测试表明，Pangu Pro MoE在Ascend平台展现卓越效率：预填充（Prefill）阶段利用稀疏激活特性显著降低计算成本，输入吞吐量远超同规模稠密模型；解码阶段通过轻量级架构与稀疏激活减少KV缓存大小和通信量，在高并发场景下输出吞吐量优势明显。Ascend 300I Duo平台上的部署测试显示，模型同时实现低延迟与高吞吐量，展现优异的成本效益比。

实验结果与专家特性分析

在模型性能评估中，Pangu Pro MoE在预训练和指令微调阶段均表现突出。预训练模型在MMLU、HellaSwag等通用语言理解基准，C-Eval、C3等中文权威评测，以及GSM8K、MATH-500等数学推理任务上全面超越或媲美同级别稠密模型（如Qwen3-32B、GLM-Z1-32B）和MoE模型（如Llama4-Scout）。专家特性分析揭示三个关键发现：随模型深度增加，专家呈现明显领域特化趋势；组内专家共激活概率极低（互斥性），组间共激活概率适中；组内专家分布接近均匀，全局专家利用率比DeepSeekV2更均衡，验证了MoGE架构的设计有效性。

总结与展望

Pangu Pro MoE通过MoGE架构从根本上解决传统MoE的负载失衡问题，结合面向Ascend平台的深度软硬件协同优化，在720亿参数规模上实现性能与效率的双重突破。其分层混合并行策略、专家感知量化技术和算子级优化方法，为稀疏大模型的工程化落地提供宝贵经验。随着算力需求持续增长，MoGE架构展现的均衡性与可扩展性，有望成为下一代大模型的主流设计范式。未来研究方向将聚焦于动态专家分组机制、跨模态专家协同及更高效的路由策略，进一步释放稀疏模型的潜力。模型代码已开源，仓库地址：https://gitcode.com/ascend-tribe/pangu-pro-moe-model，为学术界和产业界提供重要参考实现。

【免费下载链接】openPangu-Pro-MoE-72B-model openPangu-Pro-MoE (72B-A16B)：昇腾原生的分组混合专家模型项目地址: https://ai.gitcode.com/ascend-tribe/pangu-pro-moe-model

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考