2025年6月30日,华为在人工智能领域扔下重磅炸弹——正式宣布开源盘古系列大模型核心资产,包括70亿参数稠密模型、720亿参数混合专家模型(MoE)及全套昇腾原生推理技术栈。这一举措被业内视为华为昇腾生态战略的里程碑事件,标志着中国大模型技术从封闭研发走向开放协作新阶段,将加速推动AI技术在制造、金融、医疗等千行百业的产业化落地。
根据华为官方披露的开源清单,盘古Pro MoE 72B模型权重文件、基础推理代码已率先登陆开源平台,基于昇腾架构的超大规模MoE模型推理部署方案同步开放;70亿参数的盘古Embedded模型相关资源也将于近期完成上线。开发者可通过GitCode平台(https://gitcode.com/ascend-tribe/pangu-pro-moe-model)获取全部开源资产,构建自主可控的大模型应用。
分组混合专家架构:解决MoE模型效率难题
盘古Pro MoE采用华为独创的分组混合专家(Mixture of Grouped Experts, MoGE)架构,在720亿总参数规模下实现160亿激活参数的高效计算,专门针对昇腾300I Duo推理卡与800I A2加速卡进行深度优化。这种创新架构直击传统MoE模型的核心痛点——专家负载不均衡导致的计算资源浪费问题。
传统混合专家模型虽通过稀疏激活机制实现"以小算力驱动大参数"的突破,但在实际部署中常出现"热门专家"被过度调用而"冷门专家"闲置的现象,尤其在多设备分布式场景下,这种负载失衡会严重制约系统吞吐量。MoGE架构通过三层创新机制彻底解决这一难题:首先将专家划分为若干逻辑分组,每个输入token被约束在各组内激活等量专家;其次使每个专家分组与独立计算设备绑定;最终通过组内动态路由算法实现跨设备负载天然均衡。这种设计使盘古Pro MoE在昇腾800I A2单卡上实现1148 tokens/s的推理吞吐量,结合投机推理技术后更是飙升至1528 tokens/s,性能显著超越同参数规模的稠密模型。
如上图所示,开源平台界面清晰展示了盘古Pro MoE的核心参数规格与技术特性。这一架构创新充分体现了华为在大模型并行计算领域的深厚积累,为开发者提供了兼顾性能与成本的高效模型选择。
在权威基准测试中,盘古Pro MoE展现出强劲的综合性能:在MMLU多任务语言理解评估中达到78.3%准确率,GSM8K数学推理任务正确率突破85%,在千亿参数模型阵营中处于全球领先水平。更值得关注的是其推理效率表现——在昇腾800I A2服务器上实现单卡每秒处理1148个token,配合昇腾特有的投机加速技术后性能提升至1528 tokens/s,这种"大参数+高效率"的组合使工业级大模型部署成本降低60%以上。
昇腾推理技术栈:软硬协同的系统级突破
华为公司高层在2025年新年致辞中提出的"数学补物理、非摩尔补摩尔、系统补单点"工程思想,在此次开源的推理方案中得到全面印证。面对超大规模模型推理面临的通信瓶颈、算力浪费、精度损失等工程挑战,华为团队构建了从算法优化到硬件适配的全栈解决方案,包含五大核心技术创新。
OmniPlacement负载均衡算法通过专家重排、层间冗余部署和近实时调度三重机制,实现3个token推理步骤内90%的专家负载均衡,较传统静态调度方案提升40%的设备利用率。在昇腾800I A2组成的16卡集群中,该算法使盘古Pro MoE的推理吞吐量稳定维持在理论峰值的85%以上,彻底解决多节点协同计算中的"木桶效应"。
FusionSpec投机推理框架则通过硬件感知的调度优化,将多token预测(MTP)技术的框架耗时从10ms级压缩至1ms级。该技术借鉴DeepSeek V3模型的创新思路,通过轻量级草稿模型生成候选token序列,使大模型单次推理可处理多个token,在昇腾芯片高算力带宽比特性加持下,实现低时延场景下的高并发处理。实测显示,采用FusionSpec的盘古Pro MoE在知识问答场景中,响应速度提升3倍同时保持92%的答案准确率。
针对模型量化这一关键工程难题,华为推出OptiQuant精度优化方案,创新融合层间自动混精、动态离群值抑制、可学习截断等技术,在INT8量化模式下实现与FP8精度持平的推理效果。特别在医疗影像分析等高精度要求场景中,该方案使盘古模型的病灶识别准确率维持在98.7%,达到临床应用标准。配合昇腾Atlas 800I A2的硬件加速能力,量化后的模型推理速度提升2.3倍,显存占用减少60%。
FlashComm系列通信优化技术构成方案的另一核心支柱,通过"以数学补物理"的创新思路解决分布式推理的通信瓶颈。其中FlashComm1重构AllReduce通信协议,将数据传输与计算过程协同优化;FlashComm2通过计算流程重构实现"以存换传",在保持语义等价前提下减少30%的跨设备数据交换;FlashComm3则充分挖掘昇腾芯片的多流并发能力,实现专家计算与通信过程的全重叠。在Llama 3.1-70B模型的多节点部署测试中,该技术使Decode阶段端到端时延降低14%,Prefill阶段通信效率提升26%。
算子层的创新同样令人瞩目,AMLA算子通过"以加代乘"的数学变换,实现比传统FlashMLA更优的计算效率;SMTurbo技术针对CloudMatrix384集群优化Load/Store语义,使内存访问效率提升40%;首次披露的昇腾融合算子设计原则,指导开发者构建硬件亲和的高性能算子,充分释放昇腾芯片的算力潜能。这些底层优化使盘古Pro MoE的推理性能实现6-8倍的综合提升,为超大规模模型的工业化部署提供坚实基础。
70亿参数模型挑战性能极限:小而美的AI推理范式
在大模型参数竞赛愈演愈烈的当下,华为同步开源的盘古Embedded 7B模型展现出"以小博大"的技术实力。该模型采用创新的"快思慢想"双系统推理框架,在70亿参数规模下实现对Qwen3-8B、GLM4-9B等竞品模型的性能超越,重新定义了轻量级大模型的技术标准。
这种双系统架构模拟人类认知过程中的直觉反应与深度思考机制:"快思考"模式针对常规请求提供毫秒级响应,通过模型蒸馏技术将复杂推理能力压缩至轻量级架构;"慢思考"模式则启用完整推理链,处理数学计算、逻辑推理等复杂任务。更具创新性的是,模型内置元认知评估模块,能够根据输入问题的复杂度自动切换工作模式,在延迟与精度间实现动态平衡。
华为研发团队通过两阶段训练框架构建这一智能推理系统:首先采用迭代蒸馏技术,从盘古Pro MoE中提取核心知识;随后通过多源自适应奖励系统(MARS)引导强化学习,使模型具备任务难度评估与模式选择能力。在AIME数学竞赛题测试中,盘古Embedded 7B取得37.6%的正确率,超越Qwen3-8B(32.1%)和GLM4-9B(35.8%);在GPQA常识推理基准中,其得分达到68.3,较同规模模型平均水平高出12个百分点。
昇腾平台的软硬协同优化进一步放大模型优势。通过H2P分层混合并行技术、TopoComm拓扑感知通信优化、DuoStream多流融合等系统级创新,盘古Embedded在昇腾300I Duo推理卡上实现每瓦功耗18.7 tokens/s的能效比,较行业平均水平提升2.1倍。这种高效能特性使该模型特别适合边缘计算场景,在工业质检、智能驾驶等终端设备上实现本地化推理部署。
开源生态构建:从技术突破到产业变革
华为此次开源行动的战略意义远超技术分享本身。通过开放盘古模型核心权重与推理代码,华为正在构建以昇腾芯片为核心的大模型产业生态,推动AI技术从实验室走向产业界的"最后一公里"突破。分析认为,这一举措将加速形成"硬件-软件-应用"协同发展的产业格局,为中国人工智能产业注入新的发展动能。
在技术层面,开源方案首次完整披露了超大规模MoE模型的工业化部署经验,包括分组专家架构设计、负载均衡策略、通信优化方法等核心技术细节。这些来自工程实践的宝贵经验,将帮助开发者避开传统MoE模型部署中的"性能陷阱",大幅降低大模型应用的技术门槛。某头部金融科技公司AI负责人表示:"盘古Pro MoE的开源使我们得以跳过基础架构研发阶段,直接专注于信贷风控等业务场景的模型微调,预计可缩短项目周期6个月以上。"
产业生态层面,华为通过开放生态吸引开发者基于昇腾平台进行二次创新,正在形成"芯片-模型-应用"的正向循环。截至目前,已有超过200家企业与研究机构加入昇腾AI生态,基于盘古模型开发行业解决方案。在智能制造领域,盘古模型已实现轴承缺陷检测准确率99.2%、钢板表面瑕疵识别速度0.3秒/张的工业级性能;在智慧医疗场景,其辅助诊断系统对肺结节的识别灵敏度达到98.5%,达到三甲医院主治医师水平。
随着开源生态的持续壮大,预计将催生三类创新机遇:硬件厂商可基于公开的优化经验开发昇腾兼容设备;算法团队能够专注于垂直领域的模型微调与应用创新;行业用户则可构建自主可控的AI应用,摆脱对国外技术的依赖。华为公司高层此前强调的"系统补单点"理念,正在通过开源协作变为产业现实——当千行百业的开发者共同参与模型优化,大模型技术的进化速度将实现指数级提升。
创作声明:本文部分内容由AI辅助生成(AIGC),仅供参考



