OGAI详解：AIStation调度平台如何实现大模型高效长时间持续训练

最新推荐文章于 2025-12-30 11:07:07 发布

原创

最新推荐文章于 2025-12-30 11:07:07 发布 · 866 阅读

1 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #深度学习

浪潮信息发布大模型智算软件栈OGAI中的AIStation，优化大模型训练资源调度、网络通信和稳定性。AIStation通过系统性优化提升训练效率，如毫秒级调度、高效网络管理及大规模训练系统优化，助力行业降低训练成本并提高开发效率。

大模型是当前通用人工智能产业发展创新的核心技术，目前国内已发布的生成式AI模型超过了100个。面向以大模型为核心的生成式AI开发与应用场景，近日浪潮信息发布了大模型智算软件栈OGAI（Open GenAI Infra）——“元脑生智”，为大模型业务提供了全栈全流程的智算软件栈，包括AI算力系统环境部署、算力调度保障、模型开发管理等。OGAI软件栈由5层架构组成，从L0到L4分别对应于基础设施层的智算中心OS产品、系统环境层的PODsys产品、调度平台层的AIStation产品、模型工具层的YLink产品和多模纳管层的MModel产品。

其中L2层AIStation是面向大模型开发的AI算力调度平台，AIStation针对大模型训练中的资源使用与调度、训练流程与保障、算法与应用管理等方面进行了系统性优化，具备大模型断点续训能力，保证长时间持续训练。AIStation支撑浪潮信息“源”大模型的训练算力效率达到44.8%。某大型商业银行基于AIStation打造的大规模并行运算集群，帮助其充分发掘计算潜能进行大模型训练，并荣获2022 IDC“未来数字基础架构领军者”奖项。

本文将重点讨论大模型训练面临的挑战、AIStation如何提升大模型训练效率，以及取得的效果。

一、大模型训练面临巨大挑战

1.大模型训练巨大算力成本和算力利用难题

大模型训练要面对的首要挑战就是海量数据和计算量，算力开销巨大，如GPT-3是在10000个GPU上训练得到的，“源1.0”模型是在2128个GPU上通过AIStation平台完成1800亿tokens的训练，训练一个万亿token的700亿参数模型将花费上百万美元。但计算平台的性能通常不能随着算力线性增长，而是会出现耗损，因此大模型训练还需要高效的算力调度来发挥算力平台的效能。而这不仅需要依赖算法、框架的优化，还需要借助高效的算力调度平台，以根据算力集群的硬件特点和计算负载特性实现最优化的算力调度，整体提高算力利用率和训练效率。