网络老是断?这10个排障方法,15分钟定位根因

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部


去年一家公司天天断网,运维小哥第一反应就是重启交换机。

结果越重启越频繁。我去一看,是光纤接口积灰导致光衰过大,设备间歇性丢包。

清一下,稳了三个月。

网络排障最怕“条件反射式操作”——没分析就重启、没查日志就换线。

今天,我不讲高深理论,就给你一套实战派的“十步排查法”,从用户终端到核心设备,层层推进,直击要害。


今日文章阅读福利:《 网络排障好用工具合集 

私信我,发送暗号“排障”,即可获取工具资源合集。


01 十个排障方法

01 方法1:确认故障范围

目标:判断是单点问题还是全网问题

  • ✅ 单台电脑断网 → 查终端、网卡、IP配置

  • ✅ 一个工区断网 → 查接入交换机、电源、环路

  • ✅ 整栋楼断网 → 查汇聚/核心设备、上行链路、STP震荡

技巧:让不同区域用户同时ping网关,看丢包分布。


02 方法2:检查物理连接

动手查

  • 网线水晶头是否松动、氧化

  • 光纤接口有无灰尘(用放大镜)

  • 电源指示灯是否正常

  • 配线架端口是否虚接

# 交换机命令验证
display interface brief | include down

经验:80%的“断网”源于物理层接触不良。


03 方法3:终端基础诊断

# Windows
> ipconfig /all        # 查IP、网关、DNS
> ping 192.168.1.1     # 测试网关连通性
> ping 8.8.8.8         # 测试外网(需网关通)
> tracert baidu.com    # 查路由路径
# Linux
$ ifconfig             # 查IP
$ ping -c 4 192.168.1.1
$ mtr 8.8.8.8          # 路径跟踪

关键:ping网关不通 → 问题在本地;通但上不了网 → 问题在网关以上。


04 方法4:查看设备CPU与内存

# 华为/华三
display cpu-usage
display memory-usage

# 思科
show processes cpu
show memory statistics

阈值

  • CPU > 70%:关注
  • 内存 > 80%:危险
  • 高危进程:L2INF(环路)、ARP(扫描)、ACL(规则复杂)


05 方法5:检查MAC地址漂移

# 查看MAC漂移记录
display mac-address flapping record

# 输出示例:
# MAC: 00e0-fc12-3456
# Flapped between: Gi1/0/5 and Gi1/0/6

结论:若两接口在同一交换机,极可能形成环路,立即 shutdown 其中一个端口。


06 方法6:验证DHCP与IP冲突

# 用户侧
> ipconfig /release
> ipconfig /renew

# 交换机侧
display dhcp server expired pool  # 查IP分配情况
display arp all | count           # ARP表是否异常增长

现象:“IP地址冲突”弹窗 → 查非法DHCP服务器。


07 方法7:抓包分析

使用Wireshark在终端或镜像端口抓包:

  • 过多ARP请求 → 扫描或IP冲突

  • 大量广播包 → 环路或蠕虫

  • TCP重传率高 → 丢包或延迟大

过滤建议

  • arp
  • broadcast
  • tcp.analysis.retransmission


08 方法8:检查STP状态

# 查看STP角色变化
display stp brief

# 关注:
# - Port Role: ROOT/DESI/ALTE
# - 如果ALTE口频繁切换 → 可能链路不稳定

风险:STP震荡会导致短暂断网,表现为“秒级闪断”。


09 方法9:核查配置变更

  • ✅ 检查最近是否有配置修改?

  • ✅ ACL是否误拦截?

  • ✅ VLAN划分是否错误?

  • ✅ 是否有人私接设备?

# 查看配置变更日志
display logbuffer | include %SYS-5-CONFIG_I

建议:建立变更审批流程,避免“随手改”。


10 方法10:分段测试

将网络分段隔离测试:

[终端] --A-- [接入SW] --B-- [汇聚SW] --C-- [防火墙] --D-- [互联网]

  • A段通,B段不通 → 问题在接入SW上联

  • B段通,C段不通 → 查汇聚到防火墙链路

  • C段通,D段不通 → 查防火墙策略或运营商线路

工具:中间插入笔记本,设置静态IP测试连通性。


02 结语

网络中断是运维中最常见的故障类型,其原因多样,但排查路径清晰。

通过“范围确认→物理层→终端→设备状态→协议分析→配置核查”的递进式方法,可系统化缩小问题范围。

记住:最快的排障方式不是跑得最快,而是思路最清


整理:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值