【上海,2025年7月27日,世界人工智能大会2025】7月26日,在2025世界人工智能大会“AI焕新 产业共赢”企业人工智能产业发展论坛上,由国务院国资委统筹推进,中国移动牵头建设,聚合央企合力和产业链力量共同打造的人工智能“焕新社区”正式发布。同期,昇思开源社区携手中移九天人工智能科技(北京)有限公司(九天人工智能研究院),宣布昇思MindSpore AI框架2.7版本将同步在社区首发,该版本代码也将上传至昇思MindSpore代码仓托管,并同步在社区设置链接。
昇思MindSpore AI框架作为使能大模型开发全流程的基础软件底座,本次升级聚焦大模型训练效率、推理性能及系统可视化三大领域,通过20余项技术创新,实现稀疏专家模型(MoE)训练性能提升70%、推理吞吐提升15%,为全球开发者提供更高效的AI全流程开发体验。
中移九天人工智能科技(北京)有限公司(九天人工智能研究院)与昇思MindSpore深度协同,在大模型训练领域持续创新,完成了超大规模集群训练多维混合并行优化,包括支持drop&dropless MOE架构、新增流水序列并行等,并在强化学习后训练、训练精度监控和故障恢复等多领域创新,助力移动完成九天系列多个模型训练,训练效率提升超过30%。围绕模型-框架的双向互动实现基础软件与大模型技术迭代,促进AI软件技术不断演进,本次发布的MindSpore 2.7版本实现以下几大方面能力升级:
# 01
MoE训练架构全面进化
为应对MoE模型复杂并行策略挑战,MindSpore 2.7版本在推出三大训练技术创新:
1、双模式负载均衡:
- Capacity模式:固定专家负载,通过Pad/Drop统一计算形状,提升训练效率;
- Dropless模式:动态分配通信计算资源,增强系统稳定性;
2、自定义灵活并行: 基于框架静态图动态Shape能力和sharding自动重排布能力,新增Morph自定义并行机制,灵活支持专家并行等复杂并行模式;
3、多层次性能优化:
- 通信层: 机间零冗余通信、亲和性绑核优化;
- 计算层: FA算子融合、双流水线掩盖(1b1f+DualPipeV)消除流水线气泡;
- 内存层: 细粒度D2H Swap机制提升内存利用率,支撑千亿模型训练
4、后训练强化学习能力提升:
- 实现支持GRPO训练移动九天,Qwen2.5-7B/32B等模型
- 支持2k~32k长序列正常运行,支持全量DeepSeekV3强化学习训练
- 实现训推共卡、支持动态packing训练、推理均衡采样、细粒度H2D/D2H swap、6D并行权重重排、断点续训等特性
# 02
大模型推理性能突破
针对SOTA模型(如DeepSeek-V3/R1、Qwen3)的推理场景,2.7版本通过四维技术重构:
1、融合算子革新: 新增MoeInitRoutingQuant、MultiLatentAttention等稀疏计算专用算子,结合Combine/Dispatch通信优化算子,降低专家路由开销40%;
2、vLLM深度适配: 升级支持vLLM v0.8.3架构,集成Prefix Caching(前缀缓存)、Chunked Prefill(分块预填充)等特性;
3、极致量化压缩: 新增W8A8静态量化(性能+5%)与W4A16量化方案,首次实现在单台Atlas 800I A2(64GB)服务器+MindSpore环境下部署DeepSeek 671B模型;
4、混合并行推理: 支持TP+DP+EP并行与MTP(多任务并行)投机推理,多请求吞吐性能跃升35%+。
# 03
在线监测工具实现训练性能“透视”
针对超大集群训练痛点,升级MindSpore Profiler技术, 在大集群训练场景下,用户想在训练过程中能够实时看到模型性能瓶颈点,需要在线监测能力。
MindSpore2.7版本新增了MindSpore Profiler接入在线监测平台功能,用户在使用MindSpore Profiler框架集群训练场景下能够通过平台的monitor功能(常态监测)实时观察到训练的性能劣化点,实现性能问题的初步定位,后续可以通过平台的npu trace dump功能(精准采集)采集完整的性能数据,分析、定位性能瓶颈点。
通过 “常态监测+精准采集” 的组合策略,该技术既能满足集群长稳训练时的实时监测需求,又能针对性能瓶颈进行定向分析,显著提升模型训练效率。
未来,昇思MindSpore将继续坚持开源开放,使能九天人工智能研究院加速开展大模型创新,并携手焕新社区等伙伴,共筑人工智能产业繁荣生态。