联想RD450报“CPU FAULT: IERR”和“soft lockup”故障处理过程

1. 故障现象

客户的一台联想RD450在两年半前出现过宕机并报“CPU FAULT: IERR”的错误,检查了系统和TSM的日志,没有发现有什么特别的故障信息,于是重新加电恢复了运行。机器在稳定地运行了两年半后,又再次宕机,TSM界面像之前一样,只是简单地报“CPU FAULT: IERR”错误。
在这里插入图片描述

将机器放电后重新加电,加电自检过程正常,但是在进入Linux系统时报“NMI watchdog: BUG: soft lockup”的错误,无法进入操作系统。
在这里插入图片描述

2. 处理过程

1)使用系统光盘启动机器进入救援模式,将系统盘挂载起来后修改sysctl.conf文件,加大watchdog的阀值:
watchdog_thresh=120

启动系统后,系统报错依旧。

2)修改sysctl.conf文件,禁用了watchdog:
kernel.nmi_watchdog = 0
kernel.soft_watchdog =0
kernel.watchdog=0

启动系统后,系统报错还是一样。

3)修改sysctl.conf文件,尝试让系统panic,以获取一些panic信息来诊断故障:
kernel.softlockup_panic = 1

启动系统后,故障现象还是一样,系统并没有发生panic。

4)由于在报错中有报CPU卡在systemd-udevd线程的信息,于是进入 /etc/udev/rules.d/目录,注释了所有配置的udev规则,系统启动时还是报类似的错误,只不过提示CPU卡在了kwork

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值