CENTOS7 配置KDUMP和使用CRASH工具分析CRASH现场

本文介绍了kdump作为内核crash dump机制的工作原理及在CentOS 7中的配置方法。通过crash工具进行内核堆栈跟踪分析,帮助用户诊断系统故障。文章还提供了kdump启动失败的实例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

  1. 关于kdump 和 crash
    kdump是一种kernel crash dump的机制,它可以在内核crash时保存系统的内存信息用于后续的分析。kdump是基于kexec的。
    crash是一个用于交互式地分析正在运行的Linux系统或者kernel crash后的core dump数据的工具。

  2. 在CentOS 7 中配置kdump
    需要在kernel启动命令行参数中添加crashkernel参数,并启动kdump服务。
    一般设置为 crashkernel=auto 表示根据系统内存自动reserve一些内存给kernelcrash用,在x86_64系统中内存大于等于2GB时会reserve内存,最小保留内存计算方法是:160 MB + 2 bits for every 4 KB of RAM.
    当然,也可以设置crashkernel=512M这样的固定保留内存。
    用 yum install kexec-tools 安装kdump工具和服务
    用 systemctl start kdump 命令可以启动kdump.service,用 systemctl enable kdump 让dump服务在开机时自动启动。
    kdump.service 相关的配置文件 /etc/kdump.conf 里面可以修改一些默认的配置,比如dump完成后的动作(默认是reboot)、dump文件存放的方式(本地目录、NFS、scp到另外服务器等)。

  3. 测试kdump
    用root权限执行如下命令,可以让kernel crash。
 1 echo 1 > /proc/sys/kernel/sysrq
 2 echo c > /proc/sysrq-trigger

kernel dump完成后,系统重启,进入到 /var/crash/ 目录下可以看到保存下来的crash时系统的内存数据文件。 (默认保存在/var/crash目录)
4. 用crash工具分析
首先需要安装对应的kernel-debuginfo软件包,比如:

wget http://debuginfo.centos.org/7/x86_64/kernel-debuginfo-common-x86_64-3.10.0-327.el7.x86_64.rpm
wget http://debuginfo.centos.org/7/x86_64/kernel-debuginfo-3.10.0-327.el7.x86_64.rpm

安装好kernel-debuginfo包后,执行类似这样的crash命令即可进入交互式的分析:

crash /usr/lib/debug/lib/modules/3.10.0-327.el7.x86_64/vmlinux /var/crash/127.0.0.1-2016-03-28-15\:28\:59/vmcore

在输入bt可以展示kernel-stack的backtrace,更多crash中的命令见 man crash。
另外,给个我启动kdump.service失败的情况:
内存较小时,没有reserve内存给crashkernel;启动kdump.service会失败,systemctl status kdump 会看到如下log:

kdump no memory log
Shell
[root@localhost ~]# systemctl status kdump
● kdump.service - Crash recovery kernel arming
 Loaded: loaded (/usr/lib/systemd/system/kdump.service; enabled; vendor preset: enabled)
 Active: failed (Result: exit-code) since Mon 2016-03-28 14:17:21 CST; 7s ago
 Process: 29388 ExecStart=/usr/bin/kdumpctl start (code=exited, status=1/FAILURE)
 Main PID: 29388 (code=exited, status=1/FAILURE)

Mar 28 14:17:20 localhost.localdomain systemd[1]: Starting Crash recovery kernel arming...
Mar 28 14:17:21 localhost.localdomain kdumpctl[29388]: No memory reserved for crash kernel.
Mar 28 14:17:21 localhost.localdomain kdumpctl[29388]: Starting kdump: [FAILED]
Mar 28 14:17:21 localhost.localdomain systemd[1]: kdump.service: main process exited, code=exited, status=1/FAILURE
Mar 28 14:17:21 localhost.localdomain systemd[1]: Failed to start Crash recovery kernel arming.
Mar 28 14:17:21 localhost.localdomain systemd[1]: Unit kdump.service entered failed state.
Mar 28 14:17:21 localhost.localdomain systemd[1]: kdump.service failed.
<think>首先,用户的问题是关于如何使用 crash 工具调试 Linux 内核崩溃。我需要根据系统级指令用户可见层的要求来构建回答。 系统级指令: 1. 所有行内数学表达式使用 $...$ 格式。 2. 独立公式使用 $$...$$ 格式并单独成段。 3. LaTeX 语法正确。 4. 使用中文回答。 5. 生成相关问题。 6. 回答中引用的段落末尾自然地添加引用标识,例如:[^1] 用户可见层: 1. 回答结构清晰,帮助用户逐步解决问题。 2. 尽量保证回答真实可靠。 参考引用: - [^1]: crash 工具介绍,用于离线分析内核转存文件。 - [^2]: Crash-Utility 用于分析内核 coredump 文件。 - [^3]: crash 工具的基本知识。 - [^4]: 需要内存崩溃转储文件或实时系统内存。 - [^5]: Crash使用案例。 用户的问题:"我想了解如何使用 crash 工具进行系统调试或错误分析 请问如何使用 crash 工具调试 Linux 内核崩溃" 所以,我需要提供一个结构清晰的指南,解释如何使用 crash 工具调试 Linux 内核崩溃。回答应该包括步骤、命令示例。 关键点来自引用: - crash 用于分析内核转储文件(如 vmcore)。 - 需要内核映像(vmlinux转储文件。 - 可以用于离线分析或实时调试。 - 基本命令如查看堆栈、dmesg、数据结构等。 结构回答: 1. **引言**:简要介绍 crash 工具。 2. **准备工作**:如何获取必要的文件(内核映像转储文件)。 3. **基本使用**:启动 crash 工具,加载文件。 4. **常用命令**:列出分析内核崩溃的常用命令。 5. **示例分析**:提供一个简单的示例。 6. **总结**:强调重要性。 7. **相关问题**:生成相关问题。 确保使用中文回答。 生成相关问题:在回答末尾添加相关问题部分,如示例中的 "§§相关问题§§"。 引用标识:在回答中引用参考内容时,添加 [^n],例如提到功能时引用 [^1]。 数学表达式:用户的问题是关于调试工具,可能不涉及数学,但如果有,比如计算偏移等,使用 $...$。但在这个上下文中,可能不需要。 现在,构建回答大纲: - **步骤1: 介绍 crash 工具** - 解释 crash 是什么,用途 [^1][^2]。 - **步骤2: 准备工作** - 需要内核映像(vmlinux崩溃转储文件(vmcore)[^4]。 - 如何生成这些文件(使用 kdump 等)。 - **步骤3: 启动 crash** - 命令格式:`crash /path/to/vmlinux /path/to/vmcore` 或实时调试 `crash` [^4]。 - **步骤4: 基本命令** - `bt`:查看堆栈回溯。 - `log`:查看 dmesg 日志。 - `struct`:查看内核数据结构。 - `dis`:反汇编。 - 其他命令如 `ps`, `files` 等 [^2][^3]。 - **步骤5: 调试示例** - 假设一个崩溃场景,展示如何分析。 - **步骤6: 总结** - 强调 crash 的强大功能 [^3]。 - **相关问题** - 生成 3-4 个相关问题。 确保语言专业、清晰。</think>### 如何使用 crash 工具调试 Linux 内核崩溃 Linux 内核崩溃(如 panic 或 oops)是严重的系统错误,可能导致系统宕机。为了快速定位问题,可以使用 crash 工具——一个强大的开源工具,专门用于分析内核崩溃生成的转储文件(如 vmcore)。它整合了 gdb 功能,支持离线分析转储文件或实时调试运行时系统 [^1][^2]。以下我将逐步解释如何使用 crash 工具进行调试,确保回答基于可靠参考实际实践。整个过程包括准备工作、启动工具使用命令分析示例。 #### 1. **准备工作:获取必要文件** 在调试前,需要两个关键文件: - **内核映像文件 (vmlinux)**:这是未压缩的内核符号文件,包含调试信息。通常位于 `/usr/lib/debug/lib/modules/$(uname -r)/vmlinux` 或编译内核时生成的路径。 - **崩溃转储文件 (vmcore)**:当内核崩溃时,通过 kdump 机制自动生成。确保 kdump 已启用: - 安装 kdump-tools:`sudo apt-get install kdump-tools`(Ubuntu)或 `sudo yum install kexec-tools`(CentOS)。 - 配置 kdump:编辑 `/etc/default/kdump-tools`,设置转储路径,然后重启服务:`sudo systemctl restart kdump-tools`。 - 崩溃后,转储文件通常保存在 `/var/crash/` 或指定目录 [^4]。 如果系统未崩溃,但需调试实时内核crash 可直接访问 `/dev/mem` 或 `/proc/kcore`(需 root 权限)[^4]。确保文件权限正确:使用 `sudo` 或 root 用户操作。 #### 2. **启动 crash 工具** 根据场景选择启动方式: - **离线分析转储文件**:使用 vmlinux vmcore 文件启动。 ```bash crash /path/to/vmlinux /path/to/vmcore ``` 例如:`crash /usr/lib/debug/boot/vmlinux-$(uname -r) /var/crash/vmcore`。 - **实时调试运行时系统**:直接运行 `crash`,它会自动加载 `/proc/kcore` 作为内存转储 [^4]。 ```bash sudo crash ``` 启动后,进入 crash 交互式命令行界面,提示符变为 `crash>`。系统会显示崩溃摘要,如 panic 原因寄存器状态 [^2]。 #### 3. **常用命令分析内核崩溃** crash 提供多种命令来诊断问题。以下是调试崩溃的核心命令(完整列表可通过 `help` 查看): - **`bt`(backtrace)**:查看崩溃时的堆栈回溯。这是第一步,用于定位触发崩溃的函数调用链。 ``` crash> bt ``` 输出显示每个 CPU 的堆栈帧,帮助识别错误源头 [^2]。 - **`log` 或 `dmesg`**:查看内核日志(dmesg),包含崩溃前后的错误消息。 ``` crash> log ``` 例如,搜索 "panic" 或 "Oops" 关键字,确定崩溃原因 [^1]。 - **`struct`**:检查内核数据结构。例如,分析任务结构 `task_struct` 以查看进程状态。 ``` crash> struct task_struct comm ``` 参数可指定字段(如 `comm` 表示进程名),辅助诊断资源泄漏或竞争条件 [^3]。 - **`dis`(disassemble)**:反汇编代码,分析汇编指令错误。 ``` crash> dis <function_name> ``` 例如:`dis sys_write`,检查函数实现是否有问题 [^1]。 - **`ps`**:列出所有进程状态,识别崩溃时活跃的进程。 ``` crash> ps ``` - **`kmem`**:分析内存使用,检测内存损坏或泄漏。 ``` crash> kmem -i ``` 显示内存统计信息,如分配释放情况 [^3]。 - **`search`**:搜索内存中的特定值或字符串。 ``` crash> search -u <address> ``` 例如,搜索崩溃地址以关联数据。 这些命令可组合使用。例如,先 `bt` 找到问题函数,再 `struct` 检查相关数据结构,最后 `dis` 反汇编代码 [^2][^3]。 #### 4. **调试示例:分析一个简单崩溃** 假设系统因 NULL 指针解引用崩溃,dmesg 显示 "Unable to handle kernel NULL pointer dereference"。以下是分析步骤: 1. 启动 crash:`crash /path/to/vmlinux /path/to/vmcore`。 2. 查看堆栈回溯: ``` crash> bt PID: 0 TASK: ffff888007c00000 CPU: 0 COMMAND: "swapper/0" #0 [ffff888007c03df0] panic at ffffffff810e2345 #1 [ffff888007c03e50] oops_end at ffffffff81f0d7d3 #2 [ffff888007c03e80] no_context at ffffffff81f0b4a2 #3 [ffff888007c03ed0] __bad_area_nosemaphore at ffffffff81f0b5c1 #4 [ffff888007c03f20] bad_area at ffffffff81f0b7d0 #5 [ffff888007c03f50] __do_page_fault at ffffffff8100a8b0 #6 [ffff888007c03fa0] do_page_fault at ffffffff81f0c3a5 #7 [ffff888007c03fd0] page_fault at ffffffff82000bf5 ``` 输出显示 `panic` 由 `do_page_fault` 触发,表明内存访问错误。 3. 检查日志确认: ``` crash> log | grep panic Kernel panic - not syncing: Fatal exception ``` 4. 分析问题函数:假设 `bt` 指向 `my_driver_write` 函数,使用 `dis` 反汇编: ``` crash> dis my_driver_write 0xffffffffa0000000 <my_driver_write>: push %rbp 0xffffffffa0000001 <my_driver_write+1>: mov %rsp,%rbp 0xffffffffa0000004 <my_driver_write+4>: mov 0x10(%rdi),%rax # 访问 NULL 指针 ``` 反汇编显示指令 `mov 0x10(%rdi),%rax` 尝试访问无效地址。 5. 检查数据结构:使用 `struct` 查看 `rdi` 寄存器对应的结构。 ``` crash> struct file f_path.dentry @rdi ``` 输出可能显示 `dentry` 为 NULL,证实 NULL 指针解引用。 通过此过程,可定位到驱动代码中的 bug,并修复访问检查逻辑 [^2][^3]。 #### 5. **总结** crash 工具Linux 内核调试的核心利器,能高效分析转储文件或实时系统,帮助开发者快速诊断崩溃原因(如内存错误、竞争条件或驱动问题)。它整合了堆栈、日志数据结构检查,减少调试时间 [^1][^3]。实践中,建议结合内核文档社区资源(如 kernel.org)深入学习。记住:调试需 root 权限,确保文件路径正确以避免错误。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值