告别监控盲区:深度采集RoCE网卡内部数据

运维人通常在遇到“GPU通信异常”时,最希望具备“透视”能力。

在数据中心智算场景中,除了 GPU 本身的性能和调度算法,集群的整体性能很大程度上还取决于底层通信栈的效率。

智算集群的底层通信机制可分为机内通信和机间通信两大类。机内通信指在一台服务器内部,各个计算部件之间的数据交换,最典型的就是一台AI服务器内部,多个GPU(例如8张A100/H100卡)之间、GPU与CPU之间的高速通信。机间通信,则是让成百上千台AI服务器通过高性能网卡和交换机实现互联(scale-out网络)进行数据交换和协同工作,将算力规模成倍放大。

从“机内通信”的 NVLink/PCIE 通道,到“机间通信”所经过的网卡、交换机的每个端口,以及每个无损传输队列,都必须完成精密高效的协同运作,任何一个环节成为瓶颈都会导致昂贵的计算资源(GPU)处于“等待数据”的空闲状态,极大降低整个集群的算力利用率。

跨节点通信的全环节监控

作为IB网络强有力的竞争者,RoCEv2拥有高性能、兼容标准以太网生态、成本可控、扩展性强、支持多租户与虚拟化等优点,但其对网络无损有严格要求,配置不当很可能会放大拥塞,例如 PFC、ECN、Buffer 滞留等RoCE参数配置不合适,对外都是笼统表现为通信异常,网络性能下降,而逐项排查的操作相当繁琐。

为解决 RoCE 网络监控运维上的不便,此前我们已发布用于监控星融元 RoCE 交换机各项网络配置和状态指标的 AsterNOS ExporterRoCE exporter以及配套的一系列高效运维工具。【参考阅读:一文解读开源开放生态下的RDMA网络监控实践

现在我们新推出了 EasyRoCE-NE (NIC Exporter)网卡状态采集工具,不光是交换机和光模块, 服务器网卡信息也可一并纳入统一监控平台。

网卡状态采集工具(NE)

NE 是 EasyRoCE 工具集中针对服务器网络监控部分的组件,主要分为 Exporter 客户端(NIC Exporter)code>和监控面板自动化创建程序(NIC Generator)两部分。

NIC Exporter 运行在 GPU 服务器内部,主要工作是采集服务器网卡(例如 Mellanox NIC )的配置以及流量状况,将其转换为 Prometheus 能理解的标准格式并通过 HTTP 接口暴露。

NIC Generator 运行在部署管理节点(安装了星融元 EasyRoCE Toolkit 的服务器),该程序从EasyRoCE-AID(配套的数据库组件,什么是AID工具?)读取GPU服务器的IP信息,自动在EasyRoCE-UG(Unified Glancer创建可视化监控面板,把客户端采集的信息一站式展示出来。

  • 网卡配置:网卡驱动固件版本、名称,运行状态
  • RoCE配置:DSCP, TOS, ECN, PFC, CNP 报文DSCP值
  • 网卡流量:网口带宽,收发速率,丢包统计
  • ECN标记数,CNP收发统计,PFC收发帧数统计

安装配置步骤

下载 EasyRoCE-NE 工具包

nic_exporter.tgz、nic_exporter,请联系销售/售前人员获取。

在AID中完成配置信息

用户需要事先通过EasyRoCE-AID完成网络规划,并将其上传到服务器的EasyRoCE Toolkit目录下。

安装客户端nic_exporter

nic_exporter上传到GPU服务器中并后台启动,默认监听9105端口。

chmod +x nic_exporter
nohup ./ nic_exporter &

安装自动化脚本

nic_exporter.tgz上传到服务器的 EasyRoCE Toolkit 目录下并解压,解压后目录结构如下:

.
├── ne_dashboard.json #UG面板文件
├── nic_generator.py #启动脚本
└── requirements.txt #依赖

为了避免影响服务器自身的python环境,推荐使用venv 作资源隔离:

python -m venv .venv
source .venv/bin/activate

安装依赖

pip install -r requirement.txt

启动NE工具

./nic_generator.py

打印如下即成功创建面板:

Pushing dashboard to Grafana...
Dashboard pushed successfully: {'id':116, 'slug': 'gpuserver8','status': 'success', 'uid': 'easyroce-ne-gpu-server8','url': '/d/easyroce-ne-gpu-server8/gpu-server8', 'version':
4}All dashboards processed. Total: 8.Url: http://10.106.219.5:3000/dashboards/f/XXXXXXX

内容概要:本文系统介绍了数据中心主流网络技术及其架构演进,重点解析了胖树(Fat-Tree)和叶脊(Spine-Leaf)两种典型网络架构的特点与优劣,指出叶脊架构在带宽利用率、延迟可预测性、扩展性和可靠性方面的显著优势。文章进一步深入探讨InfiniBand技术,涵盖其RDMA(远程直接内存访问)原理、组网结构、协议层次与接口发展,并阐述其在高性能计算和AI训练中的关键作用。最后介绍RoCE(RDMA over Converged Ethernet)技术,对比RoCE v1与v2的差异,分析其如何将以太网与RDMA结合,实现接近InfiniBand的性能,同时兼顾成本与兼容性。此外,文中还比较了InfiniBand、RoCE和iWARP三种RDMA实现方式在标准组织、性能、成本和硬件支持等方面的异同。; 适合人群:从事数据中心网络设计、云计算基础设施建设、高性能计算或AI系统运维的网络工程师、系统架构师及相关技术人员;具备一定网络基础知识并希望深入了解数据中心底层通信技术的专业人士。; 使用场景及目标:①帮助理解现代数据中心网络从传统三层架构向叶脊架构的演进动因与技术优势;②掌握RDMA、InfiniBand、RoCE的核心原理与工作机制,明确其在低延迟、高吞吐场景下的应用价值;③为技术选型提供依据,对比不同高速网络技术的性能与成本,指导实际部署决策; 阅读建议:建议结合图表理解网络拓扑结构与数据流路径,重点关注RDMA的“内核旁路”与“零拷贝”机制带来的性能提升原理,同时注意区分InfiniBand专有网络与基于以太网的RoCE在部署环境上的差异。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值