号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
“Ping一会儿通,一会儿断?”
“视频会议每隔几分钟就卡顿一下?”
“文件传输到99%突然失败?”
这些时好时坏的网络问题,被称为“幽灵故障”
它们不触发告警,监控图上看不出异常,却严重影响用户体验。
其中,间歇性丢包是最典型、最棘手的一种。
它可能由硬件老化、微突发、驱动Bug、射频干扰等多种原因引起,定位难度极高。
今天就为你提供一套系统化的排查框架,从物理层到应用层,逐层击破,让“幽灵”无所遁形。
一、现象特征:什么才是“间歇性丢包”?

🔍 典型表现:
ping 8.8.8.8
64 bytes from 8.8.8.8: icmp_seq=1 ttl=119 time=12ms
64 bytes from 8.8.8.8: icmp_seq=2 ttl=119 time=11ms
From 192.168.1.1 icmp_seq=3 Time to live exceeded → 丢包
64 bytes from 8.8.8.8: icmp_seq=4 ttl=119 time=13ms
二、排查思路:分层定位法
我们采用 “自下而上”分层排查法,
从物理层开始,逐层排除可能原因。
物理层 → 数据链路层 → 网络层 → 传输层 → 应用层
第1层:物理层—— 检查“硬伤”
排查重点:
- 光模块误码率
- 网线质量
- 电源稳定性
- 无线信号干扰
实用命令:
# 查看光模块诊断信息(DDM)
<Huawei> display interface transceiver verbose
# 输出关键字段:
RX Power = -15.2dBm → 正常范围:-3~-20dBm
TX Power = -2.1dBm
Bias Current = 10.5mA
Temperature = 45°C
判断标准:
RX Power 接近阈值 → 光衰过大
Bias Current 异常升高 → 光模块老化
温度过高 → 散热不良
无线环境排查:
使用Wi-Fi分析工具(如NetSpot、inSSIDer)查看信道拥堵
检查是否有蓝牙、微波炉等2.4GHz干扰源
✅ 行动建议:
更换网线测试(建议使用Cat6以上)
清洁光纤接口,避免灰尘
将无线AP远离干扰源
第2层:数据链路层—— 查找“隐形瓶颈”
排查重点:
- MAC地址漂移
- 广播风暴
- STP震荡
- 端口错误计数
实用命令:
# 检查MAC地址漂移
<Huawei> display mac-address | include XX-XX-XX-XX-XX-XX
# 检查端口错误
<Huawei> display interface gigabitethernet 0/0/1
# 输出:
Input: 311861 packets, 252395747 bytes
1288 broadcasts, 0 runts, 3 giants, 0 crc
↑↑↑ CRC错误 > 0 表示物理层问题
# 检查STP状态
<Huawei> display stp brief
# 确认端口角色稳定,无频繁切换
微突发(Micro-burst)检测:
使用支持“瞬时流量统计”的交换机
观察端口是否出现“秒级100%利用率”但平均值很低
✅ 行动建议:
关闭问题端口,观察丢包是否消失
启用风暴控制:
[Huawei] interface GigabitEthernet0/0/1
[Huawei-GigabitEthernet0/0/1] broadcast-suppression 80
第3层:网络层 —— 路由与IP问题
排查重点:
- 路由震荡
- IP冲突
- TTL超时
- MTU不匹配
实用命令:
# 追踪路径变化
tracert -d 8.8.8.8
# 检查ARP表是否稳定
<Huawei> display arp | include 192.168.1.100
# 测试MTU(发现“PMTU黑洞”)
ping -f -l 1472 8.8.8.8
# -f: 不分片, -l: 数据长度
# 若不通,逐步减小值,找到最大可用MTU
✅ 行动建议:
在关键链路启用BFD(快速故障检测)
配置ARP检测(DAI)防止IP冲突
全网统一MTU(建议1500,或全程启用巨帧)
第4层:传输层(Layer 4)—— TCP/UDP异常
排查重点:
- TCP重传
- UDP丢包
- 端口耗尽
实用工具:
# 使用tcpdump抓包分析
tcpdump -i eth0 -w capture.pcap host 192.168.1.100
# 在Wireshark中查看:
# - TCP Retransmission
# - Duplicate ACK
# - Zero Window
常见模式:
TCP重传率 > 2% → 网络不稳定
Zero Window → 接收方处理不过来
大量SYN未响应 → 服务器负载高或防火墙拦截
✅ 行动建议:
检查服务器CPU、内存、磁盘I/O
调整TCP窗口大小(Window Scaling)
增加连接池或优化应用
第5层及以上:应用与终端
排查重点:
终端网卡驱动Bug
防病毒软件干扰
应用层重试机制
实用方法:
更换终端测试:同一位置换一台电脑是否正常
最小化环境测试:断开其他设备,仅保留必要链路
更新驱动:特别是Intel、Realtek网卡常见Bug
关闭防火墙/杀毒软件:临时测试是否改善
三、终极武器:长期监控与基线对比
工具推荐:
Zabbix / PRTG:设置秒级Ping监控,记录丢包时间点
NetFlow / sFlow:分析流量模式,发现异常会话
日志聚合(ELK):关联设备日志,查找丢包前后事件
建立“健康基线”:
记录正常时的:
- 光模块参数
- CPU利用率
- 端口错误计数
- 延迟与抖动
故障时对比,快速定位变化点
总结:间歇性丢包排查流程图
开始
↓
用户报障 → 确认现象(是否间歇性丢包?)
↓
分层排查:
1. 物理层 → 检查光模块、网线、电源
2. 二层 → 查MAC漂移、CRC错误、STP
3. 三层 → 查路由、ARP、MTU
4. 四层 → 抓包看TCP重传
5. 终端 → 换机测试、更新驱动
↓
使用长期监控工具定位瞬时异常
↓
修复问题 → 建立基线 → 防止复发
原创:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
687

被折叠的 条评论
为什么被折叠?



