号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
前阵子一客户机房半夜宕机,我问:“白天巡检没发现异常?”他说:“灯都亮着啊!”
我上去一查,核心交换机风扇故障,温度飙到78℃,日志里三天前就报“FAN ALARM”,但没人看。
很多朋友把巡检当成“打卡任务”,走马观花,结果小问题拖成大事故。
今天,我把真正的机房巡检“黄金法则”和实战模板全给你,照着做,故障提前拦,老板直夸你专业。
今日文章阅读福利:《 巡检通用检查单 》

讲到巡检,分享一份好资料给你。私信我,发送暗号“巡检”,即可获取高清思维导图+pdf。
01 巡检核心理念:从“看表象”到“查本质”
灯亮 ≠ 正常 无告警 ≠ 安全 能上网 ≠ 无隐患
真正的巡检,是主动预防,不是被动响应。目标是:在用户报障前,发现问题。
02 网工巡检黄金法则:“五看五查”

✅ 口诀:环境稳、设备稳、日志清、流量平、配置准。
03 分项详解:每一步查什么?
1. 看环境 —— 机房的“生命体征”
✅ 温度:≤30℃(过高易宕机)
✅ 湿度:40%~60%(过低静电,过高短路)
✅ 空调/UPS:运行正常,无异响
✅ 漏水检测:地板下无积水(尤其空调下方)
✅ 消防:灭火器在位,无遮挡
🚨 隐患案例:空调滤网堵塞 → 温度升高 → 设备降频 → 丢包
2. 看设备 —— 硬件的“健康报告”
登录设备执行:
display device
输出示例:
Slot 1: Type : S5735-L24P4S-A Online : Present Power : Supply 1: Normal Fan : Fan 1: Abnormal ← 警告! Temperature: 78℃ (Critical)
✅ 电源:双电源至少一个正常
✅ 风扇:全部“Normal”
✅ 温度:<60℃(高端设备可略高)
✅ 模块:光模块无“RX_LOS”(收光丢失)
🚨 动作:发现异常,立即记录并上报。
3. 看日志 —— 设备的“病历本”
display logbuffer | include -i "down\|alarm\|error"
✅ 接口频繁UP/DOWN → 线缆松动或错包
✅ “CRC error” → 物理链路问题
✅ “STP topology change” → 网络震荡
✅ “CPU utilization high” → 可能遭攻击或配置错误
💡 技巧:设置日志级别为“warning”以上,避免信息过载。
4. 看流量 —— 网络的“脉搏”
display interface gigabitethernet 0/0/1
关键字段:
Input: 10000000 bps (10 Mbps) Output: 8000000 bps (8 Mbps) Last 300 seconds input rate: 80% Input error: 0 CRC: 0
✅ 利用率:<70%(持续>80%需扩容)
✅ 错包/CRC:应为0,>100需排查
✅ 广播包:不应突增(可能环路)
📊 建议:对核心链路做流量基线,异常自动告警。
5. 看配置 —— 网络的“DNA”
✅ 配置是否保存?display saved-configuration vs display current-configuration
✅ 是否有未授权变更? 对比上次备份
✅ 关键配置是否完整?
- AAA认证开启
- SSH启用,Telnet关闭
- NTP时间同步
- 日志服务器配置
🔐 安全红线:禁止使用默认密码,禁止开启未加密管理协议。
04 附:机房巡检模板(可直接用)
# 机房巡检记录表(日期:_______) ## 一、环境检查 - [ ] 温度:___℃(标准:<30℃) - [ ] 湿度:___%(标准:40~60%) - [ ] 空调运行:□正常 □异常 - [ ] UPS状态:□正常 □告警 - [ ] 无漏水、无异味、无杂物 ## 二、核心设备检查(设备名:________) - [ ] 电源状态:□双正常 □单正常 □异常 - [ ] 风扇状态:□全正常 □部分异常 - [ ] 温度:___℃(标准:<60℃) - [ ] `displaydevice` 无红灯告警 ## 三、日志检查 - [ ] 无“ERROR”/“ALARM”日志 - [ ] 无接口频繁UP/DOWN - [ ] CPU/内存使用率正常(<70%) ## 四、关键接口流量(接口:________) - [ ] 利用率:<70% - [ ] CRC错误:0 - [ ] 无广播风暴 ## 五、配置与安全 - [ ] 配置已保存(`save`) - [ ] 启用SSH,禁用Telnet - [ ] 管理员密码强策略 - [ ] 配置与备份一致 ## 异常记录: 1._________________________ 2._________________________ 巡检人:_________ 时间:_________
05 结语
机房巡检是网络稳定的“第一道防线”。真正的专业,不是设备出了问题你能修多快,而是问题根本没机会发生。
坚持“五看五查”,用数据说话,用模板落地,你就能从“救火队员”升级为“防火专家”。
记住:每一次认真巡检,都是对业务最好的守护。
原创:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
349

被折叠的 条评论
为什么被折叠?



