文章目录
1 背景
x86或者arm上存在crash,如何快速定位?隔一段时间老是忘记。本文主要记录从头到尾在一台新服务器出现异常如何快速定位的记录。如果没有文档容易少收集信息。本文详细记录需要收集的一些关键信息,虽然不全,但是基本能定位出个大概。尤其其中的结合SP堆栈指针SP + rd + struct能够看到表面现象背后很多隐藏的数据,打开了一闪通往真相的大门,灵活运用并结合反汇编和操作系统函数调用应该算一个高阶功法了。参悟可以打出“立棍式”。`
2 问题描述和SOP
本文是一次服务器上crash的日志,进行的一些分析。
2.1 进入目录
进入/var/crash中最新的crash目录:
快速进入最近一次crash的快捷命令:
# 快速进入最近一次crash的目录
cd /var/crash/`ls /var/crash -t | head -n 1` && pwd && ls
2.2 安装crasn和vmlinux
# 安装vmlinux
yum install -y crash
yum install -y kernel-debuginfo*
yum install -y kernel-debuginfo-common*
# 确定安装vmlinux成功
ls /usr/lib/debug/lib/modules/`uname -r`/vmlinux -l
如果没有在对应的rpm包网站下载
实操效果:
2.3 使用crash命令进入debug目录
crash /usr/lib/debug/lib/modules/`uname -r`/vmlinux ./vmcore
实操效果:
2.4 收集主要信息
主要通过2个收集,一个是进入时候显示的信息,另一个是vmcore-message.log文件
进入后读取关键信息,包括:
panic主要信息:比如图中是访问了一个空指针:BUG: unable to handle kernel NULL pointer dereference at 0000000000000030
PID信息,比如图中2948098
PID的名字,比如图中poweroff
另外vmcore-message文件获取堆栈数据,可以通过目录下的文件显示,也可以直接在crash中显示,使用log命令,快速获取最后crash点可以:
# 显示crash关键信息
log -T | tail -n 100