别再“打卡式”巡检了——灯亮≠设备健康

号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部

前阵子一客户机房半夜宕机,我问:“白天巡检没发现异常?”他说:“灯都亮着啊!”

我上去一查,核心交换机风扇故障,温度飙到78℃,日志里三天前就报“FAN ALARM”,但没人看。

很多朋友把巡检当成“打卡任务”,走马观花,结果小问题拖成大事故

今天,我把真正的机房巡检“黄金法则”和实战模板全给你,照着做,故障提前拦,老板直夸你专业。

今日文章阅读福利:《 巡检通用检查单

讲到巡检,分享一份好资料给你。私信我,发送暗号“巡检”,即可获取高清思维导图+pdf。

01 巡检核心理念:从“看表象”到“查本质”

灯亮 ≠ 正常 无告警 ≠ 安全 能上网 ≠ 无隐患

真正的巡检,是主动预防,不是被动响应。目标是:在用户报障前,发现问题

02 网工巡检黄金法则:“五看五查”

口诀:环境稳、设备稳、日志清、流量平、配置准。

03 分项详解:每一步查什么?

1. 看环境 —— 机房的“生命体征”

  • 温度:≤30℃(过高易宕机)

  • 湿度:40%~60%(过低静电,过高短路)

  • 空调/UPS:运行正常,无异响

  • 漏水检测:地板下无积水(尤其空调下方)

  • 消防:灭火器在位,无遮挡

🚨 隐患案例:空调滤网堵塞 → 温度升高 → 设备降频 → 丢包

2. 看设备 —— 硬件的“健康报告”

登录设备执行:

display device

输出示例:

Slot 1: Type : S5735-L24P4S-A Online : Present Power : Supply 1: Normal Fan : Fan 1: Abnormal ← 警告! Temperature: 78℃ (Critical)

  • 电源:双电源至少一个正常

  • 风扇:全部“Normal”

  • 温度:<60℃(高端设备可略高)

  • 模块:光模块无“RX_LOS”(收光丢失)

🚨 动作:发现异常,立即记录并上报。

3. 看日志 —— 设备的“病历本”

display logbuffer | include -i "down\|alarm\|error"

  • 接口频繁UP/DOWN → 线缆松动或错包

  • “CRC error” → 物理链路问题

  • “STP topology change” → 网络震荡

  • “CPU utilization high” → 可能遭攻击或配置错误

💡 技巧:设置日志级别为“warning”以上,避免信息过载。

4. 看流量 —— 网络的“脉搏”

display interface gigabitethernet 0/0/1

关键字段:

Input: 10000000 bps (10 Mbps) Output: 8000000 bps (8 Mbps) Last 300 seconds input rate: 80% Input error: 0 CRC: 0

  • 利用率:<70%(持续>80%需扩容)

  • 错包/CRC:应为0,>100需排查

  • 广播包:不应突增(可能环路)

📊 建议:对核心链路做流量基线,异常自动告警。

5. 看配置 —— 网络的“DNA”

  • 配置是否保存?display saved-configuration vs display current-configuration

  • 是否有未授权变更? 对比上次备份

  • 关键配置是否完整?

    • AAA认证开启
    • SSH启用,Telnet关闭
    • NTP时间同步
    • 日志服务器配置

🔐 安全红线:禁止使用默认密码,禁止开启未加密管理协议。

04 附:机房巡检模板(可直接用)

# 机房巡检记录表(日期:_______) ## 一、环境检查 - [ ] 温度:___℃(标准:<30℃) - [ ] 湿度:___%(标准:40~60%) - [ ] 空调运行:□正常 □异常 - [ ] UPS状态:□正常 □告警 - [ ] 无漏水、无异味、无杂物 ## 二、核心设备检查(设备名:________) - [ ] 电源状态:□双正常 □单正常 □异常 - [ ] 风扇状态:□全正常 □部分异常 - [ ] 温度:___℃(标准:<60℃) - [ ] `displaydevice` 无红灯告警 ## 三、日志检查 - [ ] 无“ERROR”/“ALARM”日志 - [ ] 无接口频繁UP/DOWN - [ ] CPU/内存使用率正常(<70%) ## 四、关键接口流量(接口:________) - [ ] 利用率:<70% - [ ] CRC错误:0 - [ ] 无广播风暴 ## 五、配置与安全 - [ ] 配置已保存(`save`) - [ ] 启用SSH,禁用Telnet - [ ] 管理员密码强策略 - [ ] 配置与备份一致 ## 异常记录: 1._________________________ 2._________________________ 巡检人:_________ 时间:_________

05 结语

机房巡检是网络稳定的“第一道防线”。真正的专业,不是设备出了问题你能修多快,而是问题根本没机会发生。

坚持“五看五查”,用数据说话,用模板落地,你就能从“救火队员”升级为“防火专家”。

记住:每一次认真巡检,都是对业务最好的守护

原创:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值