号主:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部
前阵子一台核心交换机半夜自动重启,运维第一反应是“是不是病毒?”“是不是配置错了?”
我登录一看日志:The system is rebooting due to over-temperature. 再查环境:机柜塞满设备,空调坏了三天!
太多人把硬件问题当成软件故障,白白浪费排查时间。
今天,我不讲玄学,直接给你一套“设备自启诊断清单”,从日志到传感器,揪出那些沉默的硬件元凶。
今日文章阅读福利:《各类项目机柜布置图,机房设备图例 》
如果你觉得这份资料还算不错。私信我,发送暗号“机房图例”,即可限时获取这份资料。
01 三大隐藏原因(按发生频率排序)
1. 过热
表现:设备高温保护自动重启
诱因:
- 机房空调故障 / 通风不良
- 风扇积灰停转
- 设备堆叠过密,无前后风道
典型日志:
%DEVICE-4-OVERTEMP: Sensor 'Outlet' temperature exceeds threshold (65°C) System will shut down to prevent damage.
2. 电源异常
表现:突然断电重启,无软件日志
诱因:
- 单路供电,市电波动
- 劣质PDU或插座接触不良
- 电源模块老化,输出不稳
典型现象:
- 设备时间重置为出厂默认(如2000年)
- 无 save 的配置丢失
3. 硬件故障(电源/主控板/内存)
表现:随机重启、启动卡死、反复加载
诱因:
- 电容鼓包、主板虚焊
- 内存条松动或损坏
- 电源模块电容失效
02 关键诊断命令(华为/华三为例)
查看设备温度与风扇:
display device
输出示例:
Slot Power Fan Temperature(℃) State ------------------------------------------------ 1 Present Present 58 Normal 2 Absent Present 62 Abnormal ← 警告!
查看详细传感器信息:
display device temperature all display fan display power
查看最近重启原因:
display version
关注最后一行:
Reboot reason: Power off / Overheat / Watchdog / Manual
查看系统日志(重点!):
display logbuffer | include -i "reboot|power|temp|fan|voltage"
03 实战排查流程图
设备异常重启? ↓ 查 display version → 看 Reboot reason ↓ 是 "Overheat"? → 查温度/风扇 → 清灰、加空调、调风道 ↓ 是 "Power off"? → 查电源模块/PDU/市电 → 改双路供电 ↓ 是 "Watchdog" 或 无明确原因? → 疑似硬件故障 ↓ 运行硬件自检(如有)或联系厂商更换主控/电源
✅ 经验提示:
若多次重启且时间集中在用电高峰(如下午2点)→ 怀疑电压不稳
若重启后配置丢失 → 基本确定是硬断电,非软件崩溃
04 预防措施(别等出事才后悔)

05 容易被忽略的细节
PoE设备更容易过热:满载供电时功耗飙升,需额外散热
夏季是高发期:环境温度每升10℃,电子元件寿命减半
“假正常”现象:设备显示“Power OK”,但实际输出纹波超标 → 仍会导致重启
日志覆盖:频繁重启可能冲掉早期日志 → 建议配置远程日志服务器(syslog)
06 结语
设备不会无缘无故重启,每一次“意外”背后都有物理世界的痕迹。
下次再遇自动重启,先别动配置,打开 display device,看看你的设备,是不是在“发烧”或“挨饿”。
记住:稳定网络,始于稳定的电与风。
原创:老杨丨11年资深网络工程师,更多网工提升干货,请关注公众号:网络工程师俱乐部

被折叠的 条评论
为什么被折叠?



