号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
“设备连不上”“用户断网了”“OSPF邻居起不来”……
其实,90%的网络问题都有迹可循,关键在于是否有一套标准化的排查流程(SOP)。
今天给大家整理了华为数通设备(交换机/路由器)最常用的 15个排错标准操作流程。
覆盖连通性、配置、协议、安全、性能五大类场景,每一步都附带命令和预期结果,让新人也能像老手一样,系统化、不遗漏、快定位。
排错总原则
先现象 → 再范围 → 后命令
📌 三问定位法:
影响范围?单用户 / 整VLAN / 全网?
故障现象?完全不通 / 时通时断 / 速度慢?
最近变更?配置调整 / 设备更换 / 线路施工?
带着答案,选择对应SOP。
一、基础连通性类(SOP 1-4)
✅ SOP 1:用户无法上网(终端侧无IP)
目标:确认是否获取到IP地址
display dhcp server ip-in-use | include <终端MAC>
# 或在终端执行 ipconfig /all
✅ 有IP → 进入SOP 2
❌ 无IP或169.254.x.x → 检查:
接入端口是否放通对应VLAN
DHCP服务器是否可达
display dhcp relay statistics(若用中继)
✅ SOP 2:有IP但无法访问网关
目标:验证二层连通性
# 在交换机上查ARP
display arp | include <用户IP>
# 查MAC地址表
display mac-address | include <用户MAC>
✅ ARP和MAC均存在 → 网关可达,进入SOP 3
❌ ARP缺失 → 终端未发包或网关SVI未启用
❌ MAC缺失 → 物理链路或VLAN配置错误
✅ SOP 3:能ping通网关,但无法访问其他网段
目标:检查三层路由
display ip routing-table <目标网段>
✅ 有路由 → 检查ACL、防火墙策略
❌ 无路由 → 检查:
静态路由是否遗漏
OSPF/BGP是否发布该网段
默认路由是否存在(
display ip routing-table 0.0.0.0)
✅ SOP 4:跨设备通信失败(怀疑物理层)
目标:确认端口状态与错误计数
display interface brief
display interface GigabitEthernet 0/0/1
关注字段:
PHY: UP / Protocol: UP → 正常
CRC errors / Input errors > 0 → 线缆/光模块故障
Last 300 seconds input rate → 判断是否拥塞
💡 若错包持续增长 → 更换光纤/网线/模块
二、协议与服务类(SOP 5-9)
✅ SOP 5:OSPF邻居无法建立
目标:逐项比对邻居参数
display ospf peer
display ospf error
display ospf interface
常见原因:
Area ID 不一致
Hello/Dead Interval 不匹配
网络类型(broadcast/p2p)不同
认证密码错误
MTU 不一致(华为默认不检查,但部分版本会)
🔍 重点看
display ospf error中的 Bad packet 计数
✅ SOP 6:VRRP主备切换异常
目标:确认优先级与抢占状态
display vrrp
display vrrp statistics
检查:
Master设备优先级是否最高
是否开启
vrrp vrid preempt-mode上行链路是否配置 VRRP联动BFD(防假活)
✅ SOP 7:Eth-Trunk聚合失败
目标:确认端口状态与LACP协商
display eth-trunk 1
display lacp statistics eth-trunk 1
端口状态应为 Selected
若为 Unselected → 检查:
速率/双工是否一致
LACP模式(active/passive)是否匹配
是否跨堆叠且未启用M-LAG(见SOP 14)
✅ SOP 8:ACL策略未生效
目标:确认ACL绑定方向与规则顺序
display acl 3000
display traffic-filter applied-record
注意:
ACL是从上到下匹配,首条命中即执行
traffic-filter必须应用在正确方向(inbound/outbound)默认隐含 deny any,需显式加
permit放行业务
✅ SOP 9:NAT转换失败(外网访问内网服务器)
目标:验证NAT Server或Easy-IP配置
display nat server
display nat session verbose
检查公网IP、私网IP、端口是否映射正确
用
display nat session看是否有新建连接确认接口已启用
nat outbound或nat server
三、安全与管理类(SOP 10-12)
✅ SOP 10:SSH/Telnet无法登录
目标:检查VTY、AAA、ACL
display ip service
display acl 2000 # 假设ACL 2000用于VTY
display aaa online-user
必要配置:
user-interface vty 0 4
protocol inbound ssh
acl 2000 inbound # 若配置了ACL
✅ SOP 11:端口被自动shutdown(安全策略触发)
目标:查看端口安全日志
display port-security
display trapbuffer | include SECURITY
常见原因:
违反 MAC地址数量限制
检测到 非法OUI(如私接路由器)
触发 IPSG/DAI 安全机制
🔧 解决:
undo shutdown+ 排查源头设备
✅ SOP 12:设备CPU或内存过高
目标:定位资源消耗进程
display cpu-usage history
display memory-usage
display process cpu sorted
CPU > 80% 持续 → 可能广播风暴、debug未关、环路
查看
process cpu找出高占用任务(如arp/ospf/lacp)
四、高级与架构类(SOP 13-15)
✅ SOP 13:堆叠(CSS/iStack)分裂或成员丢失
目标:确认堆叠状态与链路
display stack
display stack topology
display stack channel
成员状态应为 Master / Standby / Slave
若显示 Fault → 检查堆叠线、光模块、堆叠域ID
✅ SOP 14:跨设备链路聚合(M-LAG)异常
目标:验证DFS Group与Peer-Link
display dfs-group 1
display m-lag verbose
关键检查点:
DFS Group 状态为 Established
Peer-Link 接口UP且无错包
M-LAG接口状态为 Consistent
✅ SOP 15:日志与告警分析(终极兜底)
目标:从设备“自述”中找线索
display logbuffer
display alarm active
按时间倒序查看最近事件
关注 DOWN/ERROR/FAIL 关键词
结合
terminal monitor实时观察(调试时)
五、新人排错 checklist(打印贴工位)

六、总结
排错不是猜谜,而是“证据链”构建
这15个SOP,就是你在华为设备上构建“故障证据链”的标准工具箱。每一次排错,都是按图索骥,而非盲目尝试。
下次新人问:“这个故障怎么查?”你可以直接甩出这份清单:“从SOP 1开始,一步步走,答案自然浮现。”
原创:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
354

被折叠的 条评论
为什么被折叠?



