KubeCon热点报告：AIStation调度平台实现RoCE网络下大模型的高效稳定训练

在开源技术峰会上，浪潮信息分享大模型训练实践。大模型训练面临RoCE网络性能低、易断点等难题。浪潮发布的OGAI软件栈中，L2层AIStation可优化RoCE网络性能和稳定性，内置监控与运维模块保障稳定训练，还能自动配置环境，助力大模型开发落地。

近日，在KubeCon + CloudNativeCon + Open Source Summit China 2023大会（简称“开源技术峰会”）上，浪潮信息分享了“基于Kubernetes+RoCEv2构建大规模AI基础设施与大模型训练实践”主题报告，介绍了浪潮信息在大模型开发过程中，尤其在大规模RoCE网络的使用场景，如何通过AIStation人工智能算力调度平台满足大模型训练的稳定性和效率要求，实现高效长时间持续训练。

KubeCon + CloudNativeCon + Open Source Summit是Linux基金会、云原生计算基金会（CNCF）主办的开源和云原生领域的旗舰盛会，在业界享有极高的声誉，来自谷歌、亚马逊、英特尔、Hugging Face等知名企业的近百位全球技术专家及行业领袖齐聚本届大会，带来最前沿的云原生相关技术成果和技术洞察。

大模型训练遇RoCE网络性能低、断点难题

大模型是当前通用人工智能产业发展创新的核心技术。但大模型训练过程非常复杂，面临诸多挑战。

一方面，大模型训练对通信的要求非常高。为了获得最优的训练效果，单台GPU服务器会搭载多张InfiniBand、ROCE等高性能网卡，为节点间通信提供高吞吐、低时延的服务。但不同的网络方案各有优劣，InfiniBand因性能优异已被公认为大模型训练的首选，但其成本较高；RoCE虽然成本较低，但在大规模的网络环境下，其性能和稳定性不如InfiniBand方案。