摘 要
高性能算力产业的需求随着人工智能应用的普及和不断发展而持续增加,出现了越来越多的算力协同场景。介绍了算力互联、数据传输中,影响RDMA长距吞吐量的因素,提出了超大带宽及确定性体验的网络解决方案,以实现高性能算力互联。
引 言
2022年1月,国务院印发《“十四五”数字经济发展规划》,提出加快建设信息网络基础设施,有序推进基础设施智能升级,加快实施“东数西算”工程的要求。随着国家东数西算战略的推进,越来越多的算力协同场景以及跨地域大数据搬移场景开始涌现。数据和算力已经不再局限于单一的数据中心,更多的新型计算任务和大量数据需要在多个算力中心间流转并进行算力协同,算力中心间的长距高性能传输能力已成为影响业务性能的关键因素。
算力互联意味着将算力中心内部的DCN网络进行延伸,典型的DCN网络覆盖范围在10 km以内,且高性能计算DCN网络当前主流的协议为远程内存直接访问(Remote Direct Memory Access,RDMA),由于RDMA协议要求无损传输,当将DCN网络扩展到广域百公里至千公里的范围时,会导致超长的链路传输时延,进而导致网络状态反馈滞后。然而,现有的传输层协议的拥塞控制算法存在不足之处(例如,在长距离传输中,Cub