联想RD450报“CPU FAULT: IERR”和“soft lockup”故障处理过程

1. 故障现象

客户的一台联想RD450在两年半前出现过宕机并报“CPU FAULT: IERR”的错误,检查了系统和TSM的日志,没有发现有什么特别的故障信息,于是重新加电恢复了运行。机器在稳定地运行了两年半后,又再次宕机,TSM界面像之前一样,只是简单地报“CPU FAULT: IERR”错误。
在这里插入图片描述

将机器放电后重新加电,加电自检过程正常,但是在进入Linux系统时报“NMI watchdog: BUG: soft lockup”的错误,无法进入操作系统。
在这里插入图片描述

2. 处理过程

1)使用系统光盘启动机器进入救援模式,将系统盘挂载起来后修改sysctl.conf文件,加大watchdog的阀值:
watchdog_thresh=120

启动系统后,系统报错依旧。

2)修改sysctl.conf文件,禁用了watchdog:
kernel.nmi_watchdog = 0
kernel.soft_watchdog =0
kernel.watchdog=0

启动系统后,系统报错还是一样。

3)修改sysctl.conf文件,尝试让系统panic,以获取一些panic信息来诊断故障:
kernel.softlockup_panic = 1

启动系统后,故障现象还是一样,系统并没有发生panic。

4)由于在报错中有报CPU卡在systemd-udevd线程的信息,于是进入 /etc/udev/rules.d/目录,注释了所有配置的udev规则,系统启动时还是报类似的错误,只不过提示CPU卡在了kworker线程。
在这里插入图片描述

5)将机器的网卡和HBA卡等PCI卡全部拔除,同时CPU和内存做了最小化配置,进入系统时还是报同样的错误。最后怀疑是主板有问题或者操作系统由于宕机出现了文件损坏导致了目前的故障。

6)在主板备件到达后,进行了主板的更换,系统正常启动,没有再报“NMI watchdog: BUG: soft lockup”的错误。


3. 故障总结

虽然网上有案例提到“CPU FAULT: IERR”的故障是PCI卡引起,不过根据这次的故障处理情况来看,感觉报IERR的错误很可能是主板存在硬件故障。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值