一、问题描述
在 Ubuntu 系统 上执行 NCCL 多机通信测试 与 ib_write_bw 网络带宽测试 时,发现一块标称速率为 200Gbps 的 Mellanox ConnectX-6 网卡性能异常。经多轮排查发现:
-
28:00.0网卡 PCIe 链路降级(x16 → x1)。 -
即使更换同型号网卡问题仍旧存在。
-
结合内核日志分析,最终定位为上游 PCIe 交换芯片(Broadcom PEX88048)问题。
-
通过重新拔插 PCIe 线缆,问题彻底解决。
二、故障定位步骤
2.1 确认 PCIe 链路状态
使用以下命令确认网卡当前链路带宽配置:
lspci -vv -s 28:00.0 | grep -i "Width"
异常输出示例:
LnkCap: Port #0, Speed 16GT/s, Width x16, ASPM not supported
LnkSta: Speed 16GT/s (ok), Width x1 (downgraded)
-
表示该网卡原本支持 PCIe Gen4 x16,但当前仅工作在 x1 模式,极大限制了带宽。

2.2 定位物理插槽位置
确认此设备所处的物理插槽,可通过:
lspci -vv -s 28:00.0 | grep -i "Physical Slot"
示例输出:
Physical Slot: 11
可用于与服务器手册、拓扑图对应确认实际插槽位置。
2.3 查找上游设备
由于内核日志中多次出现如下信息:
<
最低0.47元/天 解锁文章
62

被折叠的 条评论
为什么被折叠?



