1. 故障现象
客户的一台联想RD450在两年半前出现过宕机并报“CPU FAULT: IERR”的错误,检查了系统和TSM的日志,没有发现有什么特别的故障信息,于是重新加电恢复了运行。机器在稳定地运行了两年半后,又再次宕机,TSM界面像之前一样,只是简单地报“CPU FAULT: IERR”错误。

将机器放电后重新加电,加电自检过程正常,但是在进入Linux系统时报“NMI watchdog: BUG: soft lockup”的错误,无法进入操作系统。

2. 处理过程
1)使用系统光盘启动机器进入救援模式,将系统盘挂载起来后修改sysctl.conf文件,加大watchdog的阀值:
watchdog_thresh=120
启动系统后,系统报错依旧。
2)修改sysctl.conf文件,禁用了watchdog:
kernel.nmi_watchdog = 0
kernel.soft_watchdog =0
kernel.watchdog=0
启动系统后,系统报错还是一样。
3)修改sysctl.conf文件,尝试让系统panic,以获取一些panic信息来诊断故障:
kernel.softlockup_panic = 1
启动系统后,故障现象还是一样,系统并没有发生panic。
4)由于在报错中有报CPU卡在systemd-udevd线程的信息,于是进入 /etc/udev/rules.d/目录,注释了所有配置的udev规则,系统启动时还是报类似的错误,只不过提示CPU卡在了kwork

最低0.47元/天 解锁文章
1733

被折叠的 条评论
为什么被折叠?



