KubeCon热点报告：AIStation调度平台实现RoCE网络下大模型的高效稳定训练

浪潮圈

于 2023-10-13 15:35:43 发布

阅读量266

点赞数

文章标签：网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/annawanglhong/article/details/133811951

版权

近日，在KubeCon + CloudNativeCon + Open Source Summit China 2023大会（简称“开源技术峰会”）上，浪潮信息分享了“基于Kubernetes+RoCEv2构建大规模AI基础设施与大模型训练实践”主题报告，介绍了浪潮信息在大模型开发过程中，尤其在大规模RoCE网络的使用场景，如何通过AIStation人工智能算力调度平台满足大模型训练的稳定性和效率要求，实现高效长时间持续训练。

KubeCon + CloudNativeCon + Open Source Summit是Linux基金会、云原生计算基金会（CNCF）主办的开源和云原生领域的旗舰盛会，在业界享有极高的声誉，来自谷歌、亚马逊、英特尔、Hugging Face等知名企业的近百位全球技术专家及行业领袖齐聚本届大会，带来最前沿的云原生相关技术成果和技术洞察。

大模型训练遇RoCE网络性能低、断点难题

大模型是当前通用人工智能产业发展创新的核心技术。但大模型训练过程非常复杂，面临诸多挑战。

一方面，

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

浪潮圈 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。