人工智能数据中心网络技术:现状、需求与发展方向
1. 分布式人工智能计算推动网络技术升级
随着分布式人工智能计算规模的持续扩大,硬件能力得到了相应提升,这也对人工智能数据中心网络(AI DCN)的基本性能提出了更高要求。预计到2025年,全球生成和存储的数据量将比2015年增长约20倍,达到180ZB,且95%的数据将使用人工智能进行处理。同时,存储和计算能力的显著提升,推动了固态硬盘(SSD)和人工智能芯片的发展。由于数据中心流量不断增加,传统的TCP/IP协议已无法满足需求,因此AI DCN需要高速、可靠且稳定的链路技术和网络协议,如专门用于高性能计算的InfiniBand和兼容传统以太网的RoCE技术。
AI Fabric是为云数据中心网络推出的基于无损网络的超高速以太网解决方案,旨在解决传统人工智能专用网络(如InfiniBand)存在的网络规模有限、与传统以太网不兼容以及运维复杂等问题。它为人工智能、高性能计算和大规模分布式计算场景提供了解决方案。
2. AI DCN的现状
2.1 传统数据中心网络的局限性
传统数据中心使用以太网技术和TCP/IP协议栈分别构建多跳对称网络架构和传输数据。随着数据中心流量的不断增加,对网络通信要求较高的应用(如人工智能和虚拟现实)不断涌现,传统的承载TCP/IP流量的以太网技术越来越难以满足需求。因此,现有的AI DCN开始向高速、可靠和稳定的链路技术及网络协议转变。
2.2 现有网络技术
-
InfiniBand :具有非常高的吞吐量和极低的延迟,是高性能计算中使用的计算机网络通信标准。它用于计算机之间和计算机内部的数据互连,以及服务器与存储系统之间、存储系统之间的互连。InfiniBand采用交换式结构拓扑,与早期使用以太网作为共享介质的方法不同。所有传输都在通道适配器处开始或结束,每个处理器包含一个主机通道适配器(HCA),每个外设都有一个目标通道适配器(TCA),这些适配器可以交换安全或服务质量(QoS)信息。与传统的TCP/IP协议栈不同,InfiniBand有专门的网络和传输层协议,其编程接口是Verbs接口,与套接字接口不兼容。由于其高传输速率,InfiniBand是最常用的超级计算机互连技术。其传输性能值如下表所示:
| 类型 | 信令速率(Gbit/s) | 理论有效每链路吞吐量(Gbit/s) | 4链路速率(Gbit/s) | 12链路速率(Gbit/s) | 延迟(μs) |
| — | — | — | — | — | — |
| SDR | 2.5 | 2 | 8 | 24 | 5 |
| DDR | 5 | 4 | 16 | 48 | 2.5 |
| QDR | 10 | 8 | 32 | 96 | 1.3 |
| FDR - 10 | 10.3125 | 10 | 40 | 120 | 0.7 |
| FDR | 14.0625 | 13.64 | 54.54 | 163.64 | 0.7 |
| EDR | 25 | 24.24 | 96.97 | 290.91 | 0.5 |
| HDR | 50 | 50 | 200 | 600 | 0.5 | -
RoCE技术 :基于InfiniBand技术开发,具有高速和高资源效率的特点。与传统的基于以太网的TCP/IP不兼容,且需要特殊的网卡(NIC)和交换机。RoCE在网络层(RoCEv1)和传输层(RoCEv2)使用InfiniBand标准实现高效传输,只需要RoCE NIC,无需更换网络侧硬件设备。目前,Mellanox在RoCE NIC市场处于领先地位。
-
Omni - Path :由英特尔为高性能计算(HPC)提出的高速互连技术。除了使用专用网络设备外,它提供100Gbit/s的传输速率,并且在同一级别上比InfiniBand具有更低的延迟。英特尔Omni - Path架构(OPA)在100Gbit/s网络结构中排名领先。
不同网络互连技术的比较如下表所示:
| 接口速率(Gbit/s) | 技术 | 关键技术 | 比较 |
| — | — | — | — |
| 10, 25, 40, 50, 56, 100, or 200(延迟:500 - 1000 ns) | TCP/IP over Ethernet | TCP/IP,套接字编程接口 | 优点:应用范围广、成本低、兼容性好;缺点:网络效率低、平均性能差、链路传输速率不稳定 |
| 40, 56, 100, or 200(延迟:300 - 500 ns) | InfiniBand | InfiniBand网络协议和架构,Verbs编程接口 | 优点:性能好;缺点:InfiniBand网络协议和架构,Verbs编程接口 |
| 40, 56, 100, or 200(延迟:300 - 500 ns) | RoCE/RoCEv2 | InfiniBand网络层或传输层,以太网链路层,Verbs编程接口 | 优点:与传统以太网技术兼容、性价比高、性能好;缺点:需要特定的NIC |
| 100(延迟:100 ns) | Omni - Path | OPA网络架构,Verbs编程接口 | 优点:性能好;缺点:单一制造商以及需要特定的NIC和交换机 |
在2016年,美国的三大公共云提供商(亚马逊、谷歌和微软)中,只有微软Azure使用InfiniBand技术提供高速网络互连。但随着人工智能应用的增加,这种情况正在发生显著变化。例如,Facebook的最新机器学习开放平台(Big Basin)和百度都使用了100Gbit/s的InfiniBand。随着新的专用人工智能计算芯片的不断涌现、计算规模的扩大以及主流机器学习和开发平台的日益成熟,越来越多的人工智能数据中心开始使用高性能网络解决方案,而不是基于以太网的TCP/IP。
3. 人工智能技术带来的新数据中心网络需求
3.1 人工智能计算的特点
传统数据中心服务(如网页、视频和文件存储)是基于事务的,计算结果具有确定性。这些服务的单次计算和网络通信是独立进行的,发生时间不规则且持续时间随机。而人工智能计算是基于目标进行优化的,计算过程需要递归收敛,这导致人工智能服务的计算过程具有较高的空间相关性,以及在时间上相似的通信模式。
为了解决大数据问题(单个服务器无法提供足够的存储容量),计算模型和输入数据需要足够大(对于100MB的节点,10K规则的人工智能模型需要超过4TB的内存)。此外,为了缩短计算时间并实现多个节点的并发人工智能计算,需要使用数据中心网络进行大规模并发分布式人工智能计算。
3.2 分布式人工智能计算对数据中心网络的要求
3.2.1 通信量和性能要求
随着人工智能算法和应用的不断增加,分布式人工智能计算架构逐渐兴起,人工智能计算正在大规模实施。为了确保分布式信息的充分交互,对通信量和性能提出了更高的要求。例如,Facebook最近对分布式机器学习平台Cafe2进行了测试,在测试中使用了最新的多GPU服务器进行并行加速,但八台服务器上的计算任务导致100Gbit/s的InfiniBand网络资源不足,难以实现多个节点的线性计算加速。因此,网络性能显著限制了人工智能系统的横向扩展。
分布式人工智能计算有两种模式:模型并行计算和数据并行计算。
-
模型并行计算
:每个节点计算算法的一部分。计算完成后,需要将模型中的所有数据分片传输到各个节点。
-
数据并行计算
:每个节点加载整个人工智能算法模型,多个节点可以同时计算相同的模型,但每个节点只输入部分数据。当一个节点完成一轮计算后,所有相关节点需要聚合获得的权重参数的更新信息,然后获得相应的全局更新数据。在每次权重参数更新时,所有节点同步上传和获取信息。
3.2.2 高带宽和低静态延迟
一些典型人工智能计算模型的测试结果表明,分布式人工智能计算本质上是具有通信的高性能集中式计算。例如,对于某些人工智能模型,在最新的GPU上每20ms会产生100 - 200MB的流量,相当于高达80Gbit/s的瞬时突发流量。因此,人工智能数据中心必须确保链路带宽尽可能高,延迟尽可能低。否则,通信时间将超过计算时间,严重影响分布式人工智能计算的并发性和完成时间。
3.2.3 低动态延迟和零丢包
仅具有物理链路的高带宽和低延迟数据中心网络无法满足大规模高并发人工智能应用的需求。在人工智能计算的递归过程中,会在毫秒内产生大量突发流量。此外,由于使用参数服务器(PS)架构更新新模型的数据并行化参数权重,容易形成固定时间的Incast流量模型。在这种情况下,网络容易出现丢包、拥塞和负载不平衡的问题,导致一些数据流的流完成时间(FCT)过长。由于分布式人工智能计算是同步的,如果少数流延迟,会对更多的计算过程产生负面影响,从而延迟整个应用的完成时间。
因此,为了防止因丢包、拥塞和Incast导致的FCT增加,面向大规模分布式人工智能的数据中心网络需要进行精细设计,确保通信具有动态低延迟和稳定的高带宽。
3.2.4 作业完成时间(JCT)优化
基于保证端到端(E2E)数据流性能,分布式人工智能数据中心网络必须有效优化人工智能计算的作业完成时间(JCT)。在基于递归收敛的分布式人工智能并行计算过程中,超过80%的计算可以在几次递归后收敛,而其余的计算则需要大量的递归。这证明分布式人工智能计算所需的通信调度可以显著改善计算收敛时间。
分布式人工智能计算的空间相关性导致相关网络数据流量的传输。在空间上,同步计算多个数据流组(co - flow)的最优策略是最小化整个流组的传输完成时间。在时间上,由于多次递归的顺序,早期递归中的数据流需要先传输,以便后续相关计算过程能够尽快开始。为了实现计算和通信之间的最优并行化,人工智能数据中心网络通过优化多个流的传输来优化JCT。
4. AI Fabric技术发展方向
为了解决上述问题,AI Fabric技术正朝着以下方向发展:
- 无丢包或拥塞的Incast流量调度
- 大象流和小鼠流的差异化调度
- 网络流量的负载均衡
- 拥塞控制
4.1 无丢包或拥塞的Incast流量调度
目前,转发芯片每个接口队列的入站和出站缓冲区阈值是为了在常见流量模型中确保接口队列的基本调度而配置的。这些阈值参数是静态配置的,无法适应不同的流量模型,也不能保证在高并发的Incast流量模型中零丢包。
为了在数据中心网络上实现高性能计算和分布式存储应用的大规模部署,必须保证数据中心网络零丢包。这些分布式应用使用N:1 Incast流量模型,随着应用规模的扩大,突发流量的体积相应增加,交换机的数据包缓冲区增大,由于缓冲区溢出会导致丢包。
转发芯片接口队列的缓冲区设置包括上行和下行缓冲区阈值:
-
上行缓冲区阈值
:用于为入站接口优先级设置保证缓冲区、共享缓冲区和预留缓冲区。保证缓冲区确保入站接口始终可以接收最大传输单元(MTU)大小的数据包,防止因无法抢占缓冲区资源而导致服务流量中断。对于无损优先级,需要启用基于优先级的流量控制(PFC)。共享缓冲区是PFC - XOFF阈值,当PFC被触发时,本地设备从远程端接收PFC帧并停止发送数据包,此时本地端发送的正在链路中传输的数据包存储在预留缓冲区中,防止这些数据包被丢弃。
-
下行缓冲区阈值
:用于为出站接口队列设置保证缓冲区和共享缓冲区。共享缓冲区是出站接口队列可以抢占的最大缓冲区。
转发芯片的物理缓冲区不区分上行流量和下行流量,这些阈值是为入站和出站方向的缓冲区管理而配置的。只有当入站和出站缓冲区阈值都未被超过时,数据包才允许进入转发芯片的物理缓冲区,否则数据包将被丢弃。
在1:N场景中,为了确保不丢包且不影响吞吐量,需要满足以下缓冲区配置要求:
- TPFC > ΣTECN(i):在所有下行队列触发显式拥塞通知(ECN)之前,上行队列不触发PFC。
- ΣTQ - BUF(i) > (TPFC + THDRM):在上行队列触发PFC之前,任何下行队列都不会发生丢包。
在N:1场景中,为了确保不丢包且不影响吞吐量,需要满足以下缓冲区配置要求:
- ΣTPFC(i) → TECN:在下行队列触发ECN之前,任何上行队列都不触发PFC。
- TQ - BUF → Σ(TPFC(i)+THDRM (i)):在上行队列触发PFC之前,任何下行队列都不会发生丢包。
基于上行和下行缓冲区阈值到物理缓冲区的映射,Q - BUF涉及以下缓冲区分配:{预留缓冲区、PFC阈值、ECN阈值}。对于入站接口的无损优先级,预留缓冲区用于确保在PFC触发时零丢包,其值是固定的,会影响链路速率和延迟。入站接口无损优先级的PFC - XOFF阈值和出站接口队列的共享缓冲区阈值会影响转发芯片的物理缓冲区和流量模型。当流量模型发生变化时,需要动态调整缓冲区阈值以确保不丢包。
在ECN标记和源端速率降低之间的时间差内,流量不会触发PFC(ECN传播时间),此时ECN技术可以优先解决拥塞问题,避免或减少PFC的触发。ECN阈值和PFC阈值之间的缓冲区差距会影响PFC触发的频率。
对于分布式和并发数据中心应用的N:1流量模型,需要调整转发芯片的缓冲区阈值配置,并且在流量模型变化时动态即时调整,以确保交换机不丢包且不影响吞吐量。
4.2 大象流和小鼠流的差异化调度
进入队列的数据包必须按顺序出队。当大象流和小鼠流同时传输时,如果发生流量拥塞,大象流会占用队列,后续的小鼠流可能无法进入队列而被丢弃,即使能够进入,也可能会因为大象流占用大部分队列而导致延迟延长。当队列被大象流阻塞时,对延迟敏感的小鼠流的FCT会显著增加。
为了优先调度小鼠流中的数据包,同时确保延迟不受大象流的影响,保证小鼠流的FCT,需要识别大象流和小鼠流,然后降低大象流的优先级,提高小鼠流的优先级。但该解决方案对于在识别大象流之前就已被阻塞的小鼠流无效。
因此,每个服务流的几个初始数据包必须放入高优先级队列,以便优先调度和发送。在解决方案识别出服务流中的大象流后,降低大象流的优先级。通过这个过程,小鼠流不会被大象流阻塞和延迟。
为了识别大象流和小鼠流,转发芯片需要通过流表(例如基于IP五元组)实时学习和存储每个流,并根据流速率、字节数和生命周期收集每个流的流量统计信息。识别出大象流后,转发芯片动态降低该流的调度优先级。
4.3 网络流量的负载均衡
在数据中心网络中,服务流量通常在多个等价路径上传输。为了确保服务流量能够均匀分布到物理链路,并且不出现数据包乱序的情况,广泛使用基于数据包特征字段的静态哈希算法。然而,这种算法可能会导致哈希不平衡,即某个物理链路可能会过载,在最坏的情况下,即使其他物理链路负载较轻,数据包也可能因拥塞而被丢弃。这种情况下,带宽效率会很低,应用性能(FCT和吞吐量)会受到负面影响。
在数据中心网络中,存在对延迟敏感的短寿命小鼠流和对带宽密集、吞吐量敏感的长寿命大象流。一般来说,大象流占流量的不到10%,但占用超过80%的流量。当大量流通过静态哈希进行负载均衡时,每个链路上的流数量大致相同,但每个链路上的流占用的总带宽会不平衡,对链路产生相同的影响。此外,当大象流和小鼠流通过静态哈希分配到同一条链路时,大象流会抢占带宽,小鼠流会被阻塞,严重降低应用性能。
静态哈希算法采用基于流的负载均衡,即无论流的带宽如何,为了防止数据包乱序,算法必须为同一流选择相同的路径。然而,数据中心网络中的大量流量是突发流量(如TCP突发)。如果上一次突发流量与本次突发流量的时间间隔超过路径之间的延迟差异,可以为新的突发流量重新选择路由,以防止数据包乱序。突发流量被称为流元(flowlet),流元中数据包之间的间隔小于路径之间的延迟差异,因此选择相同的路径以确保流元中的数据包按正确顺序传输。
数据中心网络中的大象流可以通过流元来识别。可以将大象流分成几个小鼠流,释放原本被占用的带宽,然后为流元选择路由以平衡每个链路的负载。转发芯片必须记录每个流元选择的成员链路,以确保后续进入流元的数据包通过同一条链路传输,防止数据包乱序。因此,转发芯片必须支持流元流表的学习和老化,并记录每个流的各个数据包的进入时间戳,以区分不同的流元。
传统的静态哈希算法基于数据包的特征字段进行静态路由选择,不考虑每个链路的负载。而基于流元的负载均衡需要考虑每个链路的负载,以确保为流元选择负载最轻的链路。为了衡量每个链路的拥塞程度,转发芯片必须根据缓冲区长度和带宽效率来衡量每个接口的质量,然后将流元的数据包发送到最优且拥塞程度最低的链路。
在这种负载均衡模式下,根据拥塞程度动态选择链路,确保链路使用更加平衡,提高应用性能(FCT和吞吐量)。但基于流元的动态负载均衡只考虑了本地设备的链路负载,而没有考虑远程设备的链路负载。即使启用动态负载均衡的交换机在本地链路之间实现了负载均衡,但由于没有考虑每个服务流路径的负载,服务转发路径上的远程端可能存在拥塞点。
为了解决这个问题,交换机需要维护服务流在整个网络上的路径负载信息。在本地端进行负载均衡时,交换机从负载最轻的路径中选择本地链路。这种全局负载均衡机制可以平衡服务流的路径负载,实现路径使用的平衡,提高应用性能(FCT和吞吐量)。为了衡量每个路径的质量,转发芯片必须通过发送数据包实时检测路径上每个设备的拥塞状态,交换机根据链路的路径质量而不是链路本身的质量为流元选择链路。
4.4 拥塞控制
传统的ECN技术在数据包进入队列时为其添加ECN标志,当带有ECN标志的数据包离开队列时触发拥塞通知。这种机制会产生一个延迟,即数据包进入和离开队列的时间段。由于这个延迟,无法立即指示源端降低传输速率以缓解拥塞。如果队列严重拥塞,缓冲区较小的设备可能需要几毫秒才能发送数据包并通知源端,导致队列拥塞恶化,在某些情况下,整个网络会触发PFC并停止流量。
如果在拥塞发生时立即为从队列中发出的数据包标记ECN标志,可以减少拥塞队列的延迟和拥塞通知的等待时间。ECN允许源服务器的NIC通过降低传输速率快速响应拥塞,从而快速缓解网络设备的缓存拥塞,有效减少延迟并提高应用性能。
传统的拥塞通知数据包(CNP)由目标服务器发送。即使RoCEv2数据包在中间设备上遇到队列拥塞,设备只是为数据包添加ECN标志,然后仍然将其发送到目标服务器。随后,目标服务器的NIC识别出拥塞,构造CNP并发送给源服务器。由于拥塞通知的反馈路径较长,无法及时降低流量速率,中间设备可能会出现更严重的拥塞缓冲,在某些情况下,PFC会被触发并扩散,降低应用性能。
为了缩短拥塞通知的反馈路径,中间设备可以承担目标服务器NIC的角色,在发生拥塞时立即构造CNP并返回给源服务器。随后,源服务器可以立即调整流量速率,缓解中间设备的队列缓冲区拥塞。如果要求交换机在发生拥塞时构造CNP并发送给源服务器的NIC,转发芯片需要建立流的源和目标队列对之间的映射,交换机需要学习和维护流表。
对于数据中心中的分布式并行应用(如HPC和分布式存储),使用N:1 Incast模型。N值越大,Incast程度越高,缓冲区中的突发流量负担越重。为了缓解接口队列缓冲区的拥塞,交换机可以为数据包添加ECN标志。当队列拥塞时,交换机请求源服务器降低传输速率,防止队列缓冲区持续拥塞或恶化,从而防止PFC的触发。因为PFC的触发和扩散会降低应用流的吞吐量,增加应用的FCT,降低应用性能。
在Incast流量模型中,入站优先级队列的ΣTPFC(i)必须大于出站接口队列的TECN,以防止在出站接口队列中的数据包添加ECN标志之前触发入站接口优先级的PFC。如果优先触发ECN标记,将发送CNP请求源服务器降低传输速率,而不是使用PFC停止发送流以消除丢包,从而缓解中间设备的队列拥塞。
然而,在ECN标志标记和源服务器传输速率降低之间的时间段内,流量仍然会通过拥塞队列,在传输速率降低之前拥塞可能会增加,导致PFC被触发以停止发送流。为了解决这个问题,需要确保ECN和PFC阈值之间有足够的缓冲区差距,以容纳该时间段内发送的流量。所需的ECN和PFC阈值之间的缓冲区差距取决于Incast流量模型的并发程度,Incast并发程度越高,所需的缓冲区差距越大。理论上,缓冲区应该达到数百兆字节,但交换机转发芯片的数据包缓冲区有限,现有的BRCM XGS转发芯片的数据包缓冲区无法满足这个要求,因此无法避免PFC的触发。
在配置ECN阈值时,需要考虑吞吐量和延迟之间的平衡:
-
低ECN阈值
:设备可以尽快执行ECN标记并请求源服务器降低传输速率,保持低缓冲区深度,即队列延迟较低,有利于对延迟敏感的小鼠流,但会影响对吞吐量敏感的大象流,无法确保高吞吐量。
-
高ECN阈值
:触发ECN标记的时间会延长,队列容纳突发流量的能力会增强,确保对吞吐量敏感的大象流的带宽,但当队列拥塞时,会有较长的队列延迟,对延迟敏感的小鼠流不利。
综上所述,ECN阈值与网络设备上大象流和小鼠流的比例以及Incast流量模型的并发程度密切相关。当Incast流量模型的并发程度较高时,低ECN阈值可以确保队列具有低延迟,并且需要增加ECN和PFC阈值之间的缓冲区差距以减少PFC的触发;当Incast流量模型的并发程度较低时,高ECN阈值可以减少ECN和PFC阈值之间的缓冲区差距,确保队列具有高吞吐量。当小鼠流的比例较高时,低ECN阈值可以确保小鼠流具有低延迟;当大象流的比例较高时,高ECN阈值可以确保大多数大象流具有高吞吐量。
为了实现小鼠流和大象流分别具有低延迟和高吞吐量,并减少PFC的触发,需要根据Incast流量模型的并发程度和小鼠流、大象流的比例动态调整ECN阈值。为了计算ECN阈值,交换机的转发芯片需要实时获取Incast流量模型的并发程度以及大象流和小鼠流比例的数据,包括队列深度、队列输出速率和芯片缓冲区使用情况。
通过以上对人工智能数据中心网络技术的现状、需求和发展方向的分析,可以看出随着人工智能计算的不断发展,数据中心网络技术也在不断演进,以满足日益增长的性能和可靠性要求。未来,这些技术的进一步发展将为人工智能应用的大规模部署提供更坚实的基础。
5. 技术对比与应用场景分析
5.1 不同网络互连技术对比总结
| 技术 | 接口速率(Gbit/s) | 延迟 | 关键技术 | 优点 | 缺点 |
|---|---|---|---|---|---|
| TCP/IP over Ethernet | 10, 25, 40, 50, 56, 100, or 200 | 500 - 1000 ns | TCP/IP,套接字编程接口 | 应用范围广、成本低、兼容性好 | 网络效率低、平均性能差、链路传输速率不稳定 |
| InfiniBand | 40, 56, 100, or 200 | 300 - 500 ns | InfiniBand网络协议和架构,Verbs编程接口 | 性能好 | 特殊的网络协议和编程接口 |
| RoCE/RoCEv2 | 40, 56, 100, or 200 | 300 - 500 ns | InfiniBand网络层或传输层,以太网链路层,Verbs编程接口 | 与传统以太网技术兼容、性价比高、性能好 | 需要特定的NIC |
| Omni - Path | 100 | 100 ns | OPA网络架构,Verbs编程接口 | 性能好 | 单一制造商以及需要特定的NIC和交换机 |
从延迟方面来看,Omni - Path的延迟最低,仅为100ns,其次是InfiniBand和RoCE/RoCEv2,而TCP/IP over Ethernet的延迟最高。在关键技术上,不同技术有着各自独特的编程接口和网络协议。在应用场景中,如果对性能要求极高且成本不是主要考虑因素,InfiniBand和Omni - Path是较好的选择;如果希望与传统以太网兼容且追求性价比,RoCE技术更为合适;而对于一些对网络性能要求不高、追求广泛适用性和低成本的场景,TCP/IP over Ethernet则可以满足需求。
5.2 不同流量调度和负载均衡技术应用场景
- 无丢包或拥塞的Incast流量调度 :适用于大规模分布式存储和高性能计算应用,这些应用通常使用N:1 Incast流量模型,对零丢包和稳定吞吐量有较高要求。例如,在大型数据中心的分布式存储系统中,多个存储节点向一个数据处理节点传输数据时,就需要这种调度技术来保证数据的可靠传输。
- 大象流和小鼠流的差异化调度 :在同时存在对延迟敏感的小鼠流和对带宽占用大的大象流的网络环境中非常有用。比如在云计算数据中心,可能同时有用户的交互式请求(小鼠流)和大规模数据迁移任务(大象流),通过这种调度技术可以优先保障用户请求的及时响应。
- 网络流量的负载均衡 :无论是静态哈希算法还是基于流元的负载均衡技术,都适用于多路径传输的网络场景。静态哈希算法简单易实现,但可能存在负载不均衡的问题;而基于流元的负载均衡技术能够根据链路负载动态选择路径,更适合处理突发流量,提高网络的整体性能。在大型企业的数据中心网络中,有大量的服务器和多种业务流量,采用合适的负载均衡技术可以有效提高网络资源的利用率。
5.3 拥塞控制技术应用要点
拥塞控制技术在分布式并行应用中起着关键作用,特别是在使用N:1 Incast模型的场景下。为了实现有效的拥塞控制,需要注意以下几点:
1.
合理配置ECN阈值
:根据网络中大象流和小鼠流的比例以及Incast流量模型的并发程度动态调整ECN阈值。例如,当检测到网络中大象流占比较高时,适当提高ECN阈值;当Incast并发程度较高时,降低ECN阈值。
2.
确保缓冲区差距
:保证ECN和PFC阈值之间有足够的缓冲区差距,以应对ECN标记和源服务器传输速率降低之间的流量。虽然现有交换机转发芯片的数据包缓冲区有限,但可以通过优化配置尽量减少PFC的触发。
3.
实时监测和调整
:交换机的转发芯片需要实时获取Incast流量模型的并发程度以及大象流和小鼠流比例的数据,包括队列深度、队列输出速率和芯片缓冲区使用情况,以便及时调整拥塞控制策略。
6. 技术发展趋势展望
6.1 网络技术融合趋势
未来,不同的网络互连技术可能会出现融合的趋势。例如,RoCE技术已经在一定程度上实现了InfiniBand和以太网的融合,未来可能会有更多的技术创新,将不同技术的优势结合起来,提供更高效、更灵活的网络解决方案。同时,随着人工智能和机器学习的发展,网络技术可能会与这些技术进一步融合,实现智能的网络管理和优化。
6.2 智能化网络管理
随着人工智能计算规模的不断扩大,对网络性能的要求也越来越高。未来的数据中心网络将朝着智能化管理的方向发展,通过人工智能算法实时监测网络状态,预测网络拥塞和故障,自动调整网络配置和流量调度策略。例如,利用机器学习算法分析网络流量模式,提前识别大象流和小鼠流,实现更精准的差异化调度。
6.3 绿色节能网络
在全球倡导绿色节能的大背景下,数据中心网络也将朝着绿色节能的方向发展。未来的网络设备将采用更高效的芯片和电路设计,降低功耗。同时,网络协议和算法也将进行优化,减少不必要的流量传输,提高能源利用效率。例如,通过智能的流量调度,将流量集中到部分设备上,使其他设备进入低功耗模式。
7. 总结
本文详细介绍了人工智能数据中心网络技术的现状、需求、发展方向以及未来趋势。随着分布式人工智能计算的不断发展,对数据中心网络的性能、可靠性和灵活性提出了更高的要求。现有的网络互连技术如InfiniBand、RoCE和Omni - Path等各有优缺点,需要根据具体的应用场景进行选择。同时,为了满足人工智能计算的特殊需求,数据中心网络需要采用无丢包或拥塞的Incast流量调度、大象流和小鼠流的差异化调度、网络流量的负载均衡和拥塞控制等技术。
未来,网络技术将朝着融合、智能化和绿色节能的方向发展,为人工智能应用的大规模部署提供更坚实的基础。在实际应用中,需要根据不同的业务需求和网络环境,综合考虑各种技术因素,选择合适的网络解决方案,并不断优化网络配置,以提高网络的整体性能和可靠性。
7.1 操作建议
- 网络技术选型 :在建设人工智能数据中心网络时,根据业务对性能、兼容性和成本的要求,选择合适的网络互连技术。如果对性能要求极高,可优先考虑InfiniBand或Omni - Path;如果希望与传统以太网兼容,RoCE技术是不错的选择;对于一般性应用,TCP/IP over Ethernet可以满足需求。
-
流量调度和负载均衡配置
:
- 对于大规模分布式存储和高性能计算应用,配置无丢包或拥塞的Incast流量调度策略,根据不同的流量模型调整缓冲区阈值。
- 在同时存在大象流和小鼠流的网络中,实现大象流和小鼠流的差异化调度,将初始数据包放入高优先级队列,识别并降低大象流的优先级。
- 采用基于流元的负载均衡技术处理突发流量,实时监测链路负载,动态选择路径;对于静态哈希算法,可结合业务特点进行优化配置。
-
拥塞控制优化
:
- 实时监测网络中大象流和小鼠流的比例以及Incast流量模型的并发程度,动态调整ECN阈值。
- 确保ECN和PFC阈值之间有足够的缓冲区差距,减少PFC的触发。
- 利用交换机转发芯片获取队列深度、队列输出速率和芯片缓冲区使用情况等数据,及时调整拥塞控制策略。
通过以上操作建议,可以更好地构建和管理人工智能数据中心网络,提高网络的性能和可靠性,满足日益增长的人工智能计算需求。
7.2 流程图:人工智能数据中心网络技术应用流程
graph LR
classDef startend fill:#F5EBFF,stroke:#BE8FED,stroke-width:2px;
classDef process fill:#E5F6FF,stroke:#73A6FF,stroke-width:2px;
classDef decision fill:#FFF6CC,stroke:#FFBC52,stroke-width:2px;
A([开始]):::startend --> B(确定业务需求):::process
B --> C{对性能要求高?}:::decision
C -- 是 --> D(考虑InfiniBand或Omni - Path):::process
C -- 否 --> E{需要与传统以太网兼容?}:::decision
E -- 是 --> F(选择RoCE技术):::process
E -- 否 --> G(选择TCP/IP over Ethernet):::process
D --> H(配置流量调度和负载均衡):::process
F --> H
G --> H
H --> I(实施拥塞控制策略):::process
I --> J(实时监测和调整):::process
J --> K([结束]):::startend
这个流程图展示了在构建人工智能数据中心网络时,从确定业务需求开始,到选择合适的网络技术,再到进行流量调度、负载均衡和拥塞控制,最后进行实时监测和调整的整个过程。通过这个流程,可以帮助用户更清晰地规划和实施人工智能数据中心网络建设。
超级会员免费看

被折叠的 条评论
为什么被折叠?



