近日,在KubeCon + CloudNativeCon + Open Source Summit China 2023大会(简称“开源技术峰会”)上,浪潮信息分享了“基于Kubernetes+RoCEv2构建大规模AI基础设施与大模型训练实践”主题报告,介绍了浪潮信息在大模型开发过程中,尤其在大规模RoCE网络的使用场景,如何通过AIStation人工智能算力调度平台满足大模型训练的稳定性和效率要求,实现高效长时间持续训练。
KubeCon + CloudNativeCon + Open Source Summit是Linux基金会、云原生计算基金会(CNCF)主办的开源和云原生领域的旗舰盛会,在业界享有极高的声誉,来自谷歌、亚马逊、英特尔、Hugging Face等知名企业的近百位全球技术专家及行业领袖齐聚本届大会,带来最前沿的云原生相关技术成果和技术洞察。
大模型训练遇RoCE网络性能低、断点难题
大模型是当前通用人工智能产业发展创新的核心技术。但大模型训练过程非常复杂,面临诸多挑战。
一方面,大模型训练对通信的要求非常高。为了获得最优的训练效果,单台GPU服务器会搭载多张InfiniBand、ROCE等高性能网卡,为节点间通信提供高吞吐、低时延的服务。但不同的网络方案各有优劣,InfiniBand因性能优异已被公认为大模型训练的首选,但其成本较高;RoCE虽然成本较低,但在大规模的网络环境下,其性能和稳定性不如InfiniBand方案。

在开源技术峰会上,浪潮信息分享大模型训练实践。大模型训练面临RoCE网络性能低、易断点等难题。浪潮发布的OGAI软件栈中,L2层AIStation可优化RoCE网络性能和稳定性,内置监控与运维模块保障稳定训练,还能自动配置环境,助力大模型开发落地。
最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



