随着AI算力集群规模指数级增长,网络架构复杂度陡增。传统网络规划依赖人工计算与经验判断,存在效率低、易出错、可视化弱三大痛点。尤其在RoCE(RDMA over Converged Ethernet)网络场景中,需协同计算、存储、管理等多类网络,并确保无损传输特性——EasyRoCE-AID 正是为解决这一挑战而生。
EasyRoCE-AID:AI基础设施智能网络规划引擎
通过系统化建模与自动化工具链,将抽象的AI网络架构(计算/存储/管理/带外网络)转化为可视化蓝图,输出精准部署指南,降低80%规划耗时,规避人工配置风险。
作为 EasyRoCE Toolkit 的核心组件,AID 与以下免费工具深度协同:
✅ 一键配置RoCE网络(ORD)
✅ GPU节点路由规划(IRM)
✅ 主动路径优化(PPD)
✅ 多租户网络部署(MVD)
✅ 高精度流量监控(RTR)
AI智算中心从网络规划到部署落地5大步骤
步骤1:硬件资源数字化
输入关键参数:GPU/存储/管理服务器的名称、型号、功耗、U高度、网口数量及带宽(决定网络拓扑的关键因子)。建立设备数据库,为后续模块提供引用依据。
步骤2:智能组网设计
自动化选型:基于集群规模选择二层/三层模板,输入服务器与交换机规格后:
1. 自动计算:每层交换机数量与堆叠关系
2. 生成方案:设备互联逻辑图与端口映射
根据生成的组网方案,补充信息,完善交换机型号、序列号、功耗等参数(影响机柜布局)。
步骤3:机柜空间优化
该步骤依据设备性能特点、散热需求及数据交互逻辑,为实施规划人员制定机柜内部的最优空间分布方案提供参考。机柜的布局信息包括机柜所在的园区、楼栋、楼层、房间、排/列、机柜编码、U#、设备名称。点击左侧按钮展开,可以看到这排机柜的情况,其中机柜中每台设备的名称都引用于已填写的表格信息。
步骤4:一键生成网络配置
全自动配置输出:
- 互联IP地址分配
- 服务器Bond口配置
- 带外管理网络规划
步骤5:生态工具无缝对接
由AID规划配置的模块主要有,GPU Node内部路由规划器(IRM)、端到端路径规划(EPS)、主动路径规划(PPD)、多租户网络部署(MVD)等。
以主动路径规划工具(PPD)为例,我们使用 AID 工具规划交换机的设备名称、设备型号、设备角色、上行端口序号、下行端口序号、实例 ID、实例描述信息、下行 IP 列表、管理口地址、管理地址掩码、交换机的帐号密码。
其中除了实例 ID 和实例描述信息需要人为规划,其他字段都可以点击“填充设备信息”按钮完成自动填充。
AID还可以联动基于 Prometheus+Grafana 的监控面板,辅助实现 RDMA 网络在大屏的可视化呈现功能。
- 拓扑自动呈现(TG):
- 光模块地图(TM):
- 链路分布地图(LM)