在减少网络拥塞上,我们的一点实践(一)

本文探讨了在高性能计算网络中,如何通过优化网络拓扑和路由算法来减少网络拥塞,特别是针对深度学习场景。文章介绍了Fattree拓扑结构,以及Mellanox的MLNXSM路由算法在实际应用中的问题,并分享了幻方AI自研的负载均衡路由策略,以提升网络使用效率。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

揭秘萤火高性能计算网络下的路由算法

对于深度学习开发者和研究者们来说,高性能的算力是助力其研究成功的重要武器。对于影响深度学习训练快慢的因素,人们常常容易忽略网络传输在训练提速中的重要作用。特别是在大规模集群,分布式训练的场景中,网络的拥塞可能直接导致超算算力的失效,就像空有一段段双向8车道的快速路,但如果道路规划凌乱,高速路也只能沦为大型停车场。

本期文章针对网络这个话题,分享一点幻方 AI 就这个方向上的思考和优化。

先聊聊网络拓扑

在幻方萤火平台中,大规模机器学习训练任务对通信和数据读取的性能要求非常高,所以我们使用了目前高性能计算中常用的 Infiniband 来构建节点之间的互联。Infiniband 的网线和交换机如何排布,这就是我们需要考虑的第一个问题——网络拓扑。

网络拓扑的构建有点像修路,不但要保证任意两个节点之间都能互相访问,还要让从各个节点发出的数据包都能尽可能畅通无阻地到达目的地。

畅通无阻相反的概念就是拥塞。这里用一个生活中塞车的例子来理解拥塞,假设现在所有车辆都具有相同的最高时速,并且会按照能跑到的最大速度去开。

1.某个路口有三条车道,源源不断地有车进来但只有一条车道可以出去。如果三条车道的车都遵守交替通行的规则,那么这三条车道的通行效率就只有 1/3。这就是发生了拥塞;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

幻方AI小编

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值