1. 故障现象
客户的一台联想RD450在两年半前出现过宕机并报“CPU FAULT: IERR”的错误,检查了系统和TSM的日志,没有发现有什么特别的故障信息,于是重新加电恢复了运行。机器在稳定地运行了两年半后,又再次宕机,TSM界面像之前一样,只是简单地报“CPU FAULT: IERR”错误。
将机器放电后重新加电,加电自检过程正常,但是在进入Linux系统时报“NMI watchdog: BUG: soft lockup”的错误,无法进入操作系统。
2. 处理过程
1)使用系统光盘启动机器进入救援模式,将系统盘挂载起来后修改sysctl.conf文件,加大watchdog的阀值:
watchdog_thresh=120
启动系统后,系统报错依旧。
2)修改sysctl.conf文件,禁用了watchdog:
kernel.nmi_watchdog = 0
kernel.soft_watchdog =0
kernel.watchdog=0
启动系统后,系统报错还是一样。
3)修改sysctl.conf文件,尝试让系统panic,以获取一些panic信息来诊断故障:
kernel.softlockup_panic = 1
启动系统后,故障现象还是一样,系统并没有发生panic。
4)由于在报错中有报CPU卡在systemd-udevd线程的信息,于是进入 /etc/udev/rules.d/目录,注释了所有配置的udev规则,系统启动时还是报类似的错误,只不过提示CPU卡在了kworker线程。
5)将机器的网卡和HBA卡等PCI卡全部拔除,同时CPU和内存做了最小化配置,进入系统时还是报同样的错误。最后怀疑是主板有问题或者操作系统由于宕机出现了文件损坏导致了目前的故障。
6)在主板备件到达后,进行了主板的更换,系统正常启动,没有再报“NMI watchdog: BUG: soft lockup”的错误。
3. 故障总结
虽然网上有案例提到“CPU FAULT: IERR”的故障是PCI卡引起,不过根据这次的故障处理情况来看,感觉报IERR的错误很可能是主板存在硬件故障。