使用drgn调试Linux内核：blk-rq-qos崩溃案例分析-优快云博客

使用drgn调试Linux内核：blk-rq-qos崩溃案例分析

在Linux内核开发和生产环境中，遇到内核崩溃是常见但棘手的问题。本文将通过一个真实的Linux内核崩溃案例，展示如何使用drgn工具进行深入分析。这个案例涉及Linux 6.11版本中块层(block layer)的一个bug，导致内核在生产环境中崩溃。

在开始分析前，我们需要准备以下环境：

内核日志是分析崩溃的第一手资料。使用drgn查看内核日志缓冲区：

print_dmesg()

关键信息包括：

使用drgn获取崩溃线程的调用栈：

trace = prog.crashed_thread().stack_trace()

drgn提供的调用栈比内核日志更详细，包含：

关键调用栈帧分析：

原子操作层（帧0-2）：
- 涉及底层的原子操作实现
- 可以暂时跳过这些底层细节
自旋锁实现（帧3）：
- queued_spin_lock()函数
- 打印锁指针：trace[3]["lock"]显示地址0x6fc
锁封装层（帧4-7）：
- 这些帧只是将锁指针传递下去
- 最终都指向同一个地址0x6fc
唤醒任务（帧8）：
- try_to_wake_up()函数
- 发现任务结构体指针为NULL：trace[8]["p"]显示0x0
- 0x6fc实际上是task_struct中pi_lock的偏移量

继续向上追踪调用栈：

rq_qos_wake_function（帧9）：
- 这是块层请求QoS的实现
- 查看data结构体：trace[9]["data"]
- 发现data->task指针异常（非NULL但无效）

关键发现：

通过drgn工具的深入分析，我们发现这个崩溃的根本原因是：

块层请求QoS（rq_qos）子系统在尝试唤醒一个任务时，使用了无效的任务结构体指针。虽然指针本身不是NULL，但它指向的内存区域不包含有效的task_struct结构，导致在获取任务pi_lock时发生空指针解引用。

这个案例展示了drgn在内核调试中的强大能力，特别是：

对于内核开发者来说，掌握这些调试技巧可以大大缩短问题诊断时间，提高开发效率。

创作声明：本文部分内容由AI辅助生成（AIGC），仅供参考