一、研究背景与动机
随着摩尔定律放缓,为满足数据中心网络(DCNs)日益增长的带宽需求,人们开始研究电路交换技术构建可重构数据中心网络(RDCNs)。这些网络具有频繁变化的连接和动态路由方案,对传输层带来新挑战。虽然已有一些针对RDCNs传输协议的研究,但现有方案在运行于可重构网络结构上时存在缺陷,因此需要重新思考RDCNs的传输协议。
二、RDCN网络架构介绍
- 纯RDCN与混合RDCN
- 纯RDCN:通过电路交换技术在机架顶部交换机(ToRs)之间建立专用电路,电路随时间重新配置,连接高度动态。其时间片可达到微秒甚至纳秒级,无需依赖电气分组交换(EPS)网络,降低了功耗和管理成本,提高了带宽可扩展性,但对流量需求不敏感,电路按预定静态时间表重新配置。
- 混合RDCN:电路交换结构依赖EPS网络实现全连接。当电路交换结构中的光电路交换机(OCSes)重配置时间为毫秒级时,为及时给ToR对提供直接电路,需要EPS网络传输ToR间缺乏直接电路的流量。这种架构根据流量需求估计建立光电路,对流量需求敏感,但监测和计算流量估计的时间可能过长,且管理两种网络结构的开销较大。
- 路由方式
- 连续路径路由:数据包在源ToR到目的ToR之间通过连续、不间断的路径传输,如Opera架构对延迟敏感的流采用此方式。其优点是无电路等待延迟,但可能消耗较多带宽。
- 非连续路径路由:数据包可在路径中的中间节点停止等待合适的电路,如Valiant Load Balancing(VLB)采用此方式。它适合RDCN电路的离散性,可在带宽效率和延迟之间权衡。
三、现有传输协议在RDCN中的性能分析
- 连续路径路由传输
- NDP协议
- 无法控制网络核心的拥塞,在非阻塞Clos拓扑中可通过分组喷射实现核心无拥塞,但在Opera的扩展图拓扑中,即使采用分组喷射,由于路径成本不同,网络核心仍会拥塞。
- 无法准确调整数据包的发送速率,因为Opera拓扑的底层扩展图不对称,不同ToR对之间的往返时间(RTT)变化大且动态,导致在Opera中数据包发送速率不准确,引起队列堆积。
- DCTCP协议
- 连续路径路由导致的数据包重排序会影响DCTCP,因为TCP - based方案使用三次重复确认(triple duplicate ACK)启发式方法检测数据包丢失,对数据包重排序敏感。
- DCTCP的反馈环缓慢,无法及时应对由重配置引起的流量突然变化,且不能隔离不同时间片之间的状态,导致拥塞状态会延续到无拥塞的时间片。
- TDTCP协议
- 为克服上述问题而设计,可将TCP状态分割到不同时间片,隔离拥塞状态,但设计针对混合RDCN,在纯RDCN中优势减弱。
- 时间片隔离可能导致在无拥塞场景下吞吐量降低,且很少重用状态,因为在纯RDCN中,满足重用条件的流长度要求较高,而实际数据中心网络中多数流较短。
- NDP协议
- 非连续路径路由传输
- VLB协议
- 其不连续路由打破了常见传输协议的假设,导致数据包交付时间不受网络RTT限制,而是受周期持续时间限制,且不同中间节点的数据包交付时间差异大,重排序严重。
- RotorNet为VLB实现了专用传输方案RotorLB,但RotorLB存在问题:不能防止incast,与其他传输协议不兼容,导致连续路径流量占用其分配的带宽时,会出现网络拥塞和RotorLB流量延迟。
- VLB协议
四、未来RDCN传输协议设计方向
- 主动式传输:通过信用分配或主动流调度等方式提前安排流量,防止拥塞。设计时需考虑RDCN中不对称的路径和核心拥塞,对数据包调度进行更精细的控制。
- 对重排序具有鲁棒性:应具有明确的机制来指示数据包丢失,如采用否定确认(NACK)、数据包修剪等,避免在终端主机使用易受重排序影响的丢失检测启发式方法,同时调整重传超时(RTO)以适应RDCN路径的变化RTT。
- 兼容连续和非连续流量:考虑已被停止流量分配的带宽,自适应限制非连续流量可提前分配的带宽,防止连续和非连续路径流量混合时出现带宽估计错误和长时间延迟。
- 感知底层网络结构:跟踪电路持续时间,根据链路情况调整发送的数据量,避免因重配置导致数据包丢失,同时可以打开新的设计空间,不受现有拓扑和路由约束。