KubeCon热点报告:AIStation调度平台实现RoCE网络下大模型的高效稳定训练

近日,在KubeCon + CloudNativeCon + Open Source Summit China 2023大会(简称“开源技术峰会”)上,浪潮信息分享了“基于Kubernetes+RoCEv2构建大规模AI基础设施与大模型训练实践”主题报告,介绍了浪潮信息在大模型开发过程中,尤其在大规模RoCE网络的使用场景,如何通过AIStation人工智能算力调度平台满足大模型训练的稳定性和效率要求,实现高效长时间持续训练。

KubeCon + CloudNativeCon + Open Source Summit是Linux基金会、云原生计算基金会(CNCF)主办的开源和云原生领域的旗舰盛会,在业界享有极高的声誉,来自谷歌、亚马逊、英特尔、Hugging Face等知名企业的近百位全球技术专家及行业领袖齐聚本届大会,带来最前沿的云原生相关技术成果和技术洞察。

大模型训练遇RoCE网络性能低、断点难题

大模型是当前通用人工智能产业发展创新的核心技术。但大模型训练过程非常复杂,面临诸多挑战。

一方面,

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

浪潮圈

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值