20个关键告警与日志的精准解读

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部

网络故障发生时,设备不会说话,但会“亮灯”、会“写日记”。

这些告警(Alarm)和系统日志(Log),就是网络世界的“信号灯”。

然而,很多工程师朋友面对满屏的 Error、Warning、%LINK-3-UPDOWN,要么视而不见,要么草木皆兵——把普通信息当故障,却忽略了真正的危险信号。

今天给大家精选20个最常见、最关键的网络设备告警与日志条目,覆盖链路、协议、硬件、安全四大维度,助你精准识别“哪些该立即处理,哪些可忽略”,让排错从“盲猜”走向“靶向打击”。

一、链路层告警

1. %LINK-3-UPDOWN: Interface GigabitEthernet0/0/1, changed state to down

  • 含义:接口物理状态变为 DOWN

  • 可能原因:网线松动、对端关机、光模块故障

  • 行动:检查线缆、对端设备、光功率(若为光纤)

2. %LINEPROTO-5-UPDOWN: Line protocol on Interface ... up

  • 含义:三层协议已就绪(如IP配置完成)

  • 注意:LINK UP ≠ Line Protocol UP!后者才代表真正可用

3. CRC errors / Input errors 持续增长

  • 日志示例

    display interface g0/0/1 Input: 125000 packets, 12000000 bytes CRC: 482, Giants: 0, Runts: 0
  • 风险:数据包损坏,导致丢包、重传

  • 根源:劣质网线、电磁干扰、光模块不匹配

  • 处理:更换跳线、清洁光纤接头、检查双工模式(应为全双工)

4. Duplex mismatch detected

  • 后果:半双工 vs 全双工冲突 → 性能骤降、大量冲突包

  • 解决:两端强制设置为 speed 1000 duplex full

二、协议与控制层面

5. STP: Port Gi0/0/24 is now blocked by STP

  • 含义:生成树为防环阻塞了该端口

  • 正常场景:冗余链路设计

  • 异常场景:误接成环 → 需检查拓扑

  • 优化:接入端口启用 stp edged-port enable(华为)避免震荡

6. OSPF Nbr 10.1.1.2 Down: Dead timer expired

  • 原因:邻居路由器超过40秒未发Hello包

  • 排查

    • 链路是否中断?
    • ACL是否过滤了OSPF(协议号89)?
    • 接口MTU是否不一致?

7. BGP: Neighbor 203.0.113.1 went down (Connection reset by peer)

  • 关键点:对端主动断开

  • 可能:认证失败、AS号错误、路由策略拒绝

  • 命令:display bgp peer verbose 查详细原因

8. DHCP: No available IP addresses in pool

  • 后果:新用户无法获取IP

  • 解决

    • 扩大地址池
    • 缩短租期(如从7天改为8小时)
    • 清理僵死租约:reset dhcp server ip-in-use

三、硬件与资源告警:设备是否过载?

9. CPU utilization is above 80% for 5 minutes

  • 风险:控制平面过载 → 路由收敛慢、SSH卡顿

  • 排查

    • 是否有广播风暴?display cpu-defend statistics
    • 是否开启过多debug?立即关闭
    • 是否遭受攻击?查ACL日志

10. Memory usage exceeds threshold (90%)

  • 后果:设备可能重启或丢弃管理流量

  • 临时缓解:free unused memory(部分型号支持)

  • 根本解决:升级内存或减少功能负载(如关闭不用的日志)

11. Fan tray 1 failed

  • 紧急度:高!

  • 行动:立即联系备件更换,避免设备过热宕机

12. Power supply 2 is absent or faulty

  • 注意:单电源设备需立即处理;双电源可择机更换

  • 建议:关键设备必须双电源+双PDU

四、安全与异常流量:是否遭遇攻击或误配?

13. ARP detection: ARP packet dropped due to rate limit

  • 背景:开启了ARP限速(防ARP泛洪)

  • 正常:少量丢弃无影响

  • 异常:大量丢弃 → 可能存在ARP病毒

  • 应对:定位源MAC,端口隔离

14. IP Source Guard: Packet dropped from unknown source

  • 含义:收到未绑定IP/MAC的报文

  • 说明:安全策略生效,属正常防护

  • 例外:若合法用户被阻,需检查DHCP Snooping绑定表

15. Firewall session table is 95% full

  • 风险:新连接无法建立(如用户打不开网页)

  • 优化

    • 调整会话老化时间
    • 清理长连接(如P2P)
    • 升级设备性能

16. Login failed from 192.168.10.50 for user admin

  • 安全红线

  • 行动

    • 立即封禁源IP
    • 检查是否弱密码
    • 启用登录告警邮件

五、日志分析技巧

17. 使用 | include 快速过滤

display logbuffer | include DOWN display logbuffer | include OSPF

18. 关注时间戳连续性

  • 若日志在某时刻突然中断 → 设备可能重启或卡死

19. 区分 Warning 与 Error

  • Warning:潜在风险(如温度偏高)→ 计划处理

  • Error/Critical:已影响业务 → 立即响应

20. 建立基线日志模板

  • 正常运行时保存一份 display logbuffer

  • 故障时对比差异,快速定位异常条目

六、告警处理优先级建议

七、总结

  1. 不是所有告警都是故障,但所有故障都有迹可循

  2. 读懂日志,比会敲命令更重要

  3. 建立“日志-现象-动作”映射表,排错效率翻倍

原创:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值