近年来,生成式人工智能(Generative AI)的突破性发展,将大语言模型(LLM)和深度学习系统的算力需求推向了前所未有的量级。
本地部署大模型避雷区
云数据中心网络的Spine-Leaf架构及流量模型
传统数据中心网络一般是基于对外提供服务的流量模型而设计的,流量主要是从数据中心到最终客户,即以南北向流量为主,云内部东西向流量为辅。承载业务网络的底层物理网络架构,对于承载智算业务存在如下挑战:
- 时延敏感型业务受限:跨节点通信依赖Spine层中转,多跳转发引入额外时延,难以满足AI训练等场景的微秒级时延要求;
- 带宽资源供给不足:受限于单物理机单网卡接入模式(商用网卡带宽普遍≤200Gbps),叠加收敛比限制,无法支撑千卡级GPU集群的全互联通信需求;
- 传输可靠性挑战:传统TCP/IP网络缺乏无损保障机制,高负载下易引发丢包,导致GPU算力空转。
AI定义网络
优化网络架构
同一Pod中的计算节点间仅一跳互通
与传统方案相比,星融元智算网络方案中采用 Fat-tree CLOS架构,实现全互联无阻塞设计 ,通过ECMP(等价多路径路由)消除带宽收敛,同GPU卡号的两台智算节点间仅一跳就可互通。不同GPU编号的智算节点间,借助NCCL通信库中的Rail Local技术,可以充分利用主机内GPU间的NVSwitch的带宽,将多机间的跨卡号互通转换为跨机间的同GPU卡号的

最低0.47元/天 解锁文章
1315

被折叠的 条评论
为什么被折叠?



