号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
网络故障发生时,设备不会说话,但会“亮灯”、会“写日记”。
这些告警(Alarm)和系统日志(Log),就是网络世界的“信号灯”。
然而,很多工程师朋友面对满屏的 Error、Warning、%LINK-3-UPDOWN,要么视而不见,要么草木皆兵——把普通信息当故障,却忽略了真正的危险信号。
今天给大家精选20个最常见、最关键的网络设备告警与日志条目,覆盖链路、协议、硬件、安全四大维度,助你精准识别“哪些该立即处理,哪些可忽略”,让排错从“盲猜”走向“靶向打击”。
一、链路层告警
1. %LINK-3-UPDOWN: Interface GigabitEthernet0/0/1, changed state to down
含义:接口物理状态变为 DOWN
可能原因:网线松动、对端关机、光模块故障
行动:检查线缆、对端设备、光功率(若为光纤)
2. %LINEPROTO-5-UPDOWN: Line protocol on Interface ... up
含义:三层协议已就绪(如IP配置完成)
注意:LINK UP ≠ Line Protocol UP!后者才代表真正可用
3. CRC errors / Input errors 持续增长
日志示例:
display interface g0/0/1 Input: 125000 packets, 12000000 bytes CRC: 482, Giants: 0, Runts: 0风险:数据包损坏,导致丢包、重传
根源:劣质网线、电磁干扰、光模块不匹配
处理:更换跳线、清洁光纤接头、检查双工模式(应为全双工)
4. Duplex mismatch detected
后果:半双工 vs 全双工冲突 → 性能骤降、大量冲突包
解决:两端强制设置为 speed 1000 duplex full
二、协议与控制层面
5. STP: Port Gi0/0/24 is now blocked by STP
含义:生成树为防环阻塞了该端口
正常场景:冗余链路设计
异常场景:误接成环 → 需检查拓扑
优化:接入端口启用 stp edged-port enable(华为)避免震荡
6. OSPF Nbr 10.1.1.2 Down: Dead timer expired
原因:邻居路由器超过40秒未发Hello包
排查:
- 链路是否中断?
- ACL是否过滤了OSPF(协议号89)?
- 接口MTU是否不一致?
7. BGP: Neighbor 203.0.113.1 went down (Connection reset by peer)
关键点:对端主动断开
可能:认证失败、AS号错误、路由策略拒绝
命令:display bgp peer verbose 查详细原因
8. DHCP: No available IP addresses in pool
后果:新用户无法获取IP
解决:
- 扩大地址池
- 缩短租期(如从7天改为8小时)
- 清理僵死租约:reset dhcp server ip-in-use
三、硬件与资源告警:设备是否过载?
9. CPU utilization is above 80% for 5 minutes
风险:控制平面过载 → 路由收敛慢、SSH卡顿
排查:
- 是否有广播风暴?display cpu-defend statistics
- 是否开启过多debug?立即关闭
- 是否遭受攻击?查ACL日志
10. Memory usage exceeds threshold (90%)
后果:设备可能重启或丢弃管理流量
临时缓解:free unused memory(部分型号支持)
根本解决:升级内存或减少功能负载(如关闭不用的日志)
11. Fan tray 1 failed
紧急度:高!
行动:立即联系备件更换,避免设备过热宕机
12. Power supply 2 is absent or faulty
注意:单电源设备需立即处理;双电源可择机更换
建议:关键设备必须双电源+双PDU
四、安全与异常流量:是否遭遇攻击或误配?
13. ARP detection: ARP packet dropped due to rate limit
背景:开启了ARP限速(防ARP泛洪)
正常:少量丢弃无影响
异常:大量丢弃 → 可能存在ARP病毒
应对:定位源MAC,端口隔离
14. IP Source Guard: Packet dropped from unknown source
含义:收到未绑定IP/MAC的报文
说明:安全策略生效,属正常防护
例外:若合法用户被阻,需检查DHCP Snooping绑定表
15. Firewall session table is 95% full
风险:新连接无法建立(如用户打不开网页)
优化:
- 调整会话老化时间
- 清理长连接(如P2P)
- 升级设备性能
16. Login failed from 192.168.10.50 for user admin
安全红线!
行动:
- 立即封禁源IP
- 检查是否弱密码
- 启用登录告警邮件
五、日志分析技巧
17. 使用 | include 快速过滤
display logbuffer | include DOWN display logbuffer | include OSPF
18. 关注时间戳连续性
- 若日志在某时刻突然中断 → 设备可能重启或卡死
19. 区分 Warning 与 Error
Warning:潜在风险(如温度偏高)→ 计划处理
Error/Critical:已影响业务 → 立即响应
20. 建立基线日志模板
正常运行时保存一份 display logbuffer
故障时对比差异,快速定位异常条目
六、告警处理优先级建议

七、总结
不是所有告警都是故障,但所有故障都有迹可循
读懂日志,比会敲命令更重要
建立“日志-现象-动作”映射表,排错效率翻倍
原创:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
514

被折叠的 条评论
为什么被折叠?



