人工触发NMI获取Kdump

本文解析了NMI(不可屏蔽中断)的作用,其在硬件错误、系统调试、Linux NMIwatchdog机制及kdump获取中的应用,介绍了Linux对NMI的不同分类和硬件驱动处理方式。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

NMI(non-maskable interrupt),就是不可屏蔽的中断。

根据Intel的Software Developer手册Volume 3,NMI的来源有两个:

  • NMI pin
  • delivery mode NMI messages through system bus or local APIC serial bus

NMI通常用于通知操作系统发生了无法恢复的硬件错误,也可以用于系统调试与采样大多数服务器还提供了人工触发NMI的接口,比如NMI按钮或者iLO命令等。

  1. 无法恢复的硬件错误通常包括:芯片错误、内存ECC校验错、总线数据损坏等等。

  2. 当系统挂起,失去响应的时候,可以人工触发NMI,使系统重置,如果早已配置好了kdump,那么会保存crash dump以供分析。有的服务器提供了NMI按钮,而刀片服务器通常不提供按钮,但可以用iLO命令触发。

  3. Linux还提供一种称为NMI watchdog的机制,用于检测系统是否失去响应(也称为lockup),可以配置为在发生lockup时自动触发panic。原理是周期性地生成NMI,由NMI handler检查hrtimer中断的发生次数,如果一定时间内这个数字停顿了,表示系统失去了响应,于是调用panic例程。NMI watchdog的开关是通过内核参数 kernel.nmi_watchdog 或者在boot parameter中加入”nmi_watchdog=1″参数实现,比如:在RHEL上编辑

vi /boot/grub/menu.lst
kernel /vmlinuz-2.6.18-128.el5 ro root=/dev/sda nmi_watchdog=1

然后你会看到:

grep NMI /proc/interrupts
NMI: 0 0 0 0

Linux kernel笼统地把NMI分为三大类:
4. 内存校验错 mem_parity_error()
5. 总线数据损坏io_check_error()
6. 其他的全部归入unknown_nmi_error()。kernel对NMI是不能精确定位的,对故障诊断很不利,硬件驱动程序可以注册自己的NMI处理例程,kernel会在发生NMI之后通过notify_die()调用这些第三方注册的处理例程。

如何获取Kdump

  1. 装配有kdump service
  2. 配置crashkernel的grub2参数
  3. 开启kdump.service
  4. echo c > /etc/sysrq-trigger触发
  5. 之后应该能在/var/crash/下看到dump
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

万物琴弦光锥之外

给个0.1,恭喜老板发财

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值