深入理解 Linux Kernel Panic：常见原因与实战分析

最新推荐文章于 2025-08-29 15:00:12 发布

原创最新推荐文章于 2025-08-29 15:00:12 发布 · 2k 阅读

CC 4.0 BY-SA版权

文章标签：

235 篇文章

订阅专栏

📘

Kernel Panic 是 Linux 内核在遇到不可恢复错误时采取的一种保护机制。类似于用户态程序崩溃（Segmentation Fault），但 Panic 发生在内核态，意味着整个系统处于无法继续执行的状态。

典型表现包括：

在这里插入图片描述

Panic 类型	本质概念说明
Null pointer dereference	解引用空指针（即访问指向 NULL 的内存）
Kernel paging request error	访问了非法地址，常见为用户态误传指针给内核、越界访问
stack overflow / 栈空 / 栈溢出	内核栈空间被递归或大数据结构撑爆，或者函数返回路径错误导致“栈帧清空”
BUG_ON / WARN_ON	内核主动调用 `BUG_ON(condition)` 强制中止执行（调试时常用）
Watchdog timeout	某任务长时间无响应，系统认为“卡死”，触发超时重启
死锁 / 竞争	同一资源多任务争用导致系统阻塞
OOM（内存不足）	Out-of-Memory 触发 panic 或进程被 kill
初始化失败	驱动加载或平台初始化错误，可能无法继续启动

void foo() {
    foo();  // 无限递归，堆叠函数栈帧 -> stack overflow
}

void dfs(struct node *n) {
    if (!n) return;
    dfs(n->left);
    dfs(n->right);
}
// 如果节点链表出现环，终止条件永远不成立，堆栈爆炸！

BUG_ON(condition) 是一种内核内部的断言机制。若 condition 为 true，系统立即触发 panic，打印调用栈，停止内核。

BUG_ON(ptr == NULL);

通常用于调试阶段防御异常状态，生产环境应谨慎使用，否则可能导致轻微错误变成系统性崩溃。

内核不能随意访问任意内存区域，否则会破坏整个系统的稳定性。

这些都会触发如下 panic 日志：

Unable to handle kernel NULL pointer dereference at virtual address 0x00000000

struct eeprom *e = i2c_get_clientdata(client);
if (e->size > 1024) { ... } // e 是 NULL

分析方法：
- 查看 /sys/kernel/debug/tracing/trace 使用 function_graph；
- 确认 i2c_set_clientdata() 是否在 probe 中执行；
修复建议：所有指针使用前都应检查是否为 NULL！

现象：kernel panic，日志显示 stack overflow
分析方法：
- 编写简单递归链表扫描函数，若链表结构异常（如自环）会无限递归；
- 用 CONFIG_DEBUG_STACKOVERFLOW 启用内核栈溢出检测；
处理建议：替换为迭代式写法，或增加检查环路机制。

日志信息：

Out of memory: Kill process 456 (daemon) score 1090 or sacrifice child

分析手段：
- slabtop 实时分析缓存如 dentry, inode_cache；
- 清理缓存：echo 3 > /proc/sys/vm/drop_caches

现象：系统运行一段时间重启，dmesg 出现 watchdog timeout
分析：
- 任务死锁、调度器饥饿，长时间无法响应
调试方式：
- 开启调度器追踪 echo 1 > /proc/sys/kernel/sched_debug
- 使用 perf sched 或 ftrace 分析任务执行路径