KubeCon热点报告:AIStation调度平台实现RoCE网络下大模型的高效稳定训练

在开源技术峰会上,浪潮信息分享大模型训练实践。大模型训练面临RoCE网络性能低、易断点等难题。浪潮发布的OGAI软件栈中,L2层AIStation可优化RoCE网络性能和稳定性,内置监控与运维模块保障稳定训练,还能自动配置环境,助力大模型开发落地。

近日,在KubeCon + CloudNativeCon + Open Source Summit China 2023大会(简称“开源技术峰会”)上,浪潮信息分享了“基于Kubernetes+RoCEv2构建大规模AI基础设施与大模型训练实践”主题报告,介绍了浪潮信息在大模型开发过程中,尤其在大规模RoCE网络的使用场景,如何通过AIStation人工智能算力调度平台满足大模型训练的稳定性和效率要求,实现高效长时间持续训练。

KubeCon + CloudNativeCon + Open Source Summit是Linux基金会、云原生计算基金会(CNCF)主办的开源和云原生领域的旗舰盛会,在业界享有极高的声誉,来自谷歌、亚马逊、英特尔、Hugging Face等知名企业的近百位全球技术专家及行业领袖齐聚本届大会,带来最前沿的云原生相关技术成果和技术洞察。

大模型训练遇RoCE网络性能低、断点难题

大模型是当前通用人工智能产业发展创新的核心技术。但大模型训练过程非常复杂,面临诸多挑战。

一方面,大模型训练对通信的要求非常高。为了获得最优的训练效果,单台GPU服务器会搭载多张InfiniBand、ROCE等高性能网卡,为节点间通信提供高吞吐、低时延的服务。但不同的网络方案各有优劣,InfiniBand因性能优异已被公认为大模型训练的首选,但其成本较高;RoCE虽然成本较低,但在大规模的网络环境下,其性能和稳定性不如InfiniBand方案

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值