一个 Linux 上分析死锁的简单方法

本文介绍了一种在Linux环境下分析死锁问题的方法,包括使用pstack和gdb工具进行死锁分析,以及如何通过代码审查和资源分配策略来避免死锁。文章深入探讨了产生死锁的四个必要条件,并提供了实例代码分析和死锁检测步骤。

简介

       死锁 (deallocks): 是指两个或两个以上的进程(线程)在执行过程中,因争夺资源而造成的一种互相等待的现象,若无外力作用,它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程(线程)称为死锁进程(线程)。 由于资源占用是互斥的,当某个进程提出申请资源后,使得有关进程(线程)在无外力协助下,永远分配不到必需的资源而无法继续运行,这就产生了一种特殊现象死锁。

       一种交叉持锁死锁的情形,此时执行程序中两个或多个线程发生永久堵塞(等待),每个线程都在等待被其它线程占用并堵塞了的资源。例如,如果线程 1 锁住了记录 A 并等待记录 B,而线程 2 锁住了记录 B 并等待记录 A,这样两个线程就发生了死锁现象。在计算机系统中 , 如果系统的资源分配策略不当,更常见的可能是程序员写的程序有错误等,则会导致进程因竞争资源不当而产生死锁的现象。


产生死锁的4个必要条件

  •  互斥条件:一个资源每次只能被一个进程(线程)使用。
  • 请求与保持条件:一个进程(线程)因请求资源而阻塞时,对已获得的资源保持不放。
  • 不剥夺条件 : 此进程(线程)已获得的资源,在末使用完之前,不能强行剥夺。
  •  循环等待条件 : 多个进程(线程)之间形成一种头尾相接的循环等待资源关系。
                            
                                                                                                                   图一:交叉执锁的示意图

注释:在执行 func2 和 func4 之后,子线程 1 获得了锁 A,正试图获得锁 B,但是子线程 2 此时获得了锁 B,正试图获得锁 A,所以子线程 1 和子线程 2 将没有办法得到锁 A 和锁 B,因为它们各自被对方占有,永远不会释放,所以发生了死锁的现象。


使用pstack和gdb工具对死锁程序进行分析

pstack 在 Linux 平台上的简单介绍

       pstack 是 Linux(比如 Red Hat Linux 系统、Ubuntu Linux 系统等)下一个很有用的工具,它的功能是打印输出此进程的堆栈信息。可以输出所有线程的调用关系栈。

gdb 在 Linux 平台上的简单介绍
       GDB 是 GNU 开源组织发布的一个强大的 UNIX 下的程序调试工具。Linux 系统中包含了 GNU 调试程序 gdb,它是一个用来调试 C 和 C++ 程序的调试器。可以使程序开发者在程序运行时观察程序的内部结构和内存的使用情况 。

gdb 所提供的一些主要功能如下所示:
1 运行程序,设置能影响程序运行的参数和环境 ;
2 控制程序在指定的条件下停止运行;
3 当程序停止时,可以检查程序的状态;
4 当程序 crash 时,可以检查 core 文件;
5 可以修改程序的错误,并重新运行程序;
6 可以动态监视程序中变量的值;
7 可以单步执行代码,观察程序的运行状态。

       gdb 程序调试的对象是可执行文件或者进程,而不是程序的源代码文件。然而,并不是所有的可执行文件都可以用 gdb 调试。如果要让产生的可执行文件可以用来调试,需在执行 g++(gcc)指令编译程序时,加上 -g 参数,指定程序在编译时包含调试信息。调试信息包含程序里的每个变量的类型和在可执行文件里的地址映射以及源代码的行号。gdb 利用这些信息使源代码和机器码相关联。gdb 的基本命令较多,不做详细介绍,大家如果需要进一步了解,请参见 gdb 手册。


测试程序:

#include <unistd.h> 
 #include <pthread.h> 
 #include <string.h> 

 pthread_mutex_t mutex1 = PTHREAD_MUTEX_INITIALIZER; 
 pthread_mutex_t mutex2 = PTHREAD_MUTEX_INITIALIZER; 
 pthread_mutex_t mutex3 = PTHREAD_MUTEX_INITIALIZER; 
 pthread_mutex_t mutex4 = PTHREAD_MUTEX_INITIALIZER; 

 static int sequence1 = 0; 
 static int sequence2 = 0; 

 int func1() 
 { 
    pthread_mutex_lock(&mutex1); 
    ++sequence1; 
    sleep(1); 
    pthread_mutex_lock(&mutex2); 
    ++sequence2; 
    pthread_mutex_unlock(&mutex2); 
    pthread_mutex_unlock(&mutex1); 

    return sequence1; 
 } 

 int func2() 
 { 
    pthread_mutex_lock(&mutex2); 
    ++sequence2; 
    sleep(1); 
    pthread_mutex_lock(&mutex1); 
    ++sequence1; 
    pthread_mutex_unlock(&mutex1); 
    pthread_mutex_unlock(&mutex2); 

    return sequence2; 
 } 

 void* thread1(void* arg) 
 { 
    while (1) 
    { 
        int iRetValue = func1(); 

        if (iRetValue == 100000) 
        { 
            pthread_exit(NULL); 
        } 
    } 
 } 

 void* thread2(void* arg) 
 { 
    while (1) 
    { 
        int iRetValue = func2(); 

        if (iRetValue == 100000) 
        { 
            pthread_exit(NULL); 
        } 
    } 
 } 

 void* thread3(void* arg) 
 { 
    while (1) 
    { 
        sleep(1); 
        char szBuf[128]; 
        memset(szBuf, 0, sizeof(szBuf)); 
        strcpy(szBuf, "thread3"); 
    } 
 } 

 void* thread4(void* arg) 
 { 
    while (1) 
    { 
        sleep(1); 
        char szBuf[128]; 
        memset(szBuf, 0, sizeof(szBuf)); 
        strcpy(szBuf, "thread3"); 
    } 
 } 

 int main() 
 { 
    pthread_t tid[4]; 
    if (pthread_create(&tid[0], NULL, &thread1, NULL) != 0) 
    { 
        _exit(1); 
    } 
    if (pthread_create(&tid[1], NULL, &thread2, NULL) != 0) 
    { 
        _exit(1); 
    } 
    if (pthread_create(&tid[2], NULL, &thread3, NULL) != 0) 
    { 
        _exit(1); 
    } 
    if (pthread_create(&tid[3], NULL, &thread4, NULL) != 0) 
    { 
        _exit(1); 
    } 

    sleep(5); 
    //pthread_cancel(tid[0]); 

    pthread_join(tid[0], NULL); 
    pthread_join(tid[1], NULL); 
    pthread_join(tid[2], NULL); 
    pthread_join(tid[3], NULL); 

    pthread_mutex_destroy(&mutex1); 
    pthread_mutex_destroy(&mutex2); 
    pthread_mutex_destroy(&mutex3); 
    pthread_mutex_destroy(&mutex4); 

    return 0; 
 } 

编译测试程序:

gcc -g lock.c -o lock -lpthread

查看测试程序的进程号:

huangcheng@ubuntu:~$ps -ef|grep lock 
huangcheng       6721  5751  0 15:21 pts/3    00:00:00 ./lock 

对死锁进程第一次执行pstack(pstack -进程号)的输出结果:

huangcheng@ubuntu:~$pstack 6721 
 Thread 5 (Thread 0x41e37940 (LWP 6722)): 
 #0  0x0000003d1a80d4c4 in __lll_lock_wait () from /lib64/libpthread.so.0 
 #1  0x0000003d1a808e1a in _L_lock_1034 () from /lib64/libpthread.so.0 
 #2  0x0000003d1a808cdc in pthread_mutex_lock () from /lib64/libpthread.so.0 
 #3  0x0000000000400a9b in func1() () 
 #4  0x0000000000400ad7 in thread1(void*) () 
 #5  0x0000003d1a80673d in start_thread () from /lib64/libpthread.so.0 
 #6  0x0000003d19cd40cd in clone () from /lib64/libc.so.6 
 Thread 4 (Thread 0x42838940 (LWP 6723)): 
 #0  0x0000003d1a80d4c4 in __lll_lock_wait () from /lib64/libpthread.so.0 
 #1  0x0000003d1a808e1a in _L_lock_1034 () from /lib64/libpthread.so.0 
 #2  0x0000003d1a808cdc in pthread_mutex_lock () from /lib64/libpthread.so.0 
 #3  0x0000000000400a17 in func2() () 
 #4  0x0000000000400a53 in thread2(void*) () 
 #5  0x0000003d1a80673d in start_thread () from /lib64/libpthread.so.0 
 #6  0x0000003d19cd40cd in clone () from /lib64/libc.so.6 
 Thread 3 (Thread 0x43239940 (LWP 6724)): 
 #0  0x0000003d19c9a541 in nanosleep () from /lib64/libc.so.6 
 #1  0x0000003d19c9a364 in sleep () from /lib64/libc.so.6 
 #2  0x00000000004009bc in thread3(void*) () 
 #3  0x0000003d1a80673d in start_thread () from /lib64/libpthread.so.0 
 #4  0x0000003d19cd40cd in clone () from /lib64/libc.so.6 
 Thread 2 (Thread 0x43c3a940 (LWP 6725)): 
 #0  0x0000003d19c9a541 in nanosleep () from /lib64/libc.so.6 
 #1  0x0000003d19c9a364 in sleep () from /lib64/libc.so.6 
 #2  0x0000000000400976 in thread4(void*) () 
 #3  0x0000003d1a80673d in start_thread () from /lib64/libpthread.so.0 
 #4  0x0000003d19cd40cd in clone () from /lib64/libc.so.6 
 Thread 1 (Thread 0x2b984ecabd90 (LWP 6721)): 
 #0  0x0000003d1a807b35 in pthread_join () from /lib64/libpthread.so.0 
 #1  0x0000000000400900 in main ()    

对死锁进程第二次执行pstack(pstack -进程号)的输出结果:

huangcheng@ubuntu:~$pstack 6721 
 Thread 5 (Thread 0x40bd6940 (LWP 6722)): 
 #0  0x0000003d1a80d4c4 in __lll_lock_wait () from /lib64/libpthread.so.0 
 #1  0x0000003d1a808e1a in _L_lock_1034 () from /lib64/libpthread.so.0 
 #2  0x0000003d1a808cdc in pthread_mutex_lock () from /lib64/libpthread.so.0 
 #3  0x0000000000400a87 in func1() () 
 #4  0x0000000000400ac3 in thread1(void*) () 
 #5  0x0000003d1a80673d in start_thread () from /lib64/libpthread.so.0 
 #6  0x0000003d19cd40cd in clone () from /lib64/libc.so.6 
 Thread 4 (Thread 0x415d7940 (LWP 6723)): 
 #0  0x0000003d1a80d4c4 in __lll_lock_wait () from /lib64/libpthread.so.0 
 #1  0x0000003d1a808e1a in _L_lock_1034 () from /lib64/libpthread.so.0 
 #2  0x0000003d1a808cdc in pthread_mutex_lock () from /lib64/libpthread.so.0 
 #3  0x0000000000400a03 in func2() () 
 #4  0x0000000000400a3f in thread2(void*) () 
 #5  0x0000003d1a80673d in start_thread () from /lib64/libpthread.so.0 
 #6  0x0000003d19cd40cd in clone () from /lib64/libc.so.6 
 Thread 3 (Thread 0x41fd8940 (LWP 6724)): 
 #0  0x0000003d19c7aec2 in memset () from /lib64/libc.so.6 
 #1  0x00000000004009be in thread3(void*) () 
 #2  0x0000003d1a80673d in start_thread () from /lib64/libpthread.so.0 
 #3  0x0000003d19cd40cd in clone () from /lib64/libc.so.6 
 Thread 2 (Thread 0x429d9940 (LWP 6725)): 
 #0  0x0000003d19c7ae0d in memset () from /lib64/libc.so.6 
 #1  0x0000000000400982 in thread4(void*) () 
 #2  0x0000003d1a80673d in start_thread () from /lib64/libpthread.so.0 
 #3  0x0000003d19cd40cd in clone () from /lib64/libc.so.6 
 Thread 1 (Thread 0x2af906fd9d90 (LWP 6721)): 
 #0  0x0000003d1a807b35 in pthread_join () from /lib64/libpthread.so.0 
 #1  0x0000000000400900 in main () 

       连续多次查看这个进程的函数调用关系堆栈进行分析:当进程吊死时,多次使用 pstack 查看进程的函数调用堆栈,死锁线程将一直处于等锁的状态,对比多次的函数调用堆栈输出结果,确定哪两个线程(或者几个线程)一直没有变化且一直处于等锁的状态(可能存在两个线程 一直没有变化)。


输出分析:

       根据上面的输出对比可以发现,线程 1 和线程 2 由第一次 pstack 输出的处在 sleep 函数变化为第二次 pstack 输出的处在 memset 函数。但是线程 4 和线程 5 一直处在等锁状态(pthread_mutex_lock),在连续两次的 pstack 信息输出中没有变化,所以我们可以推测线程 4 和线程 5 发生了死锁。

Gdb into thread输出:

然后通过gdb attach到死锁进程:

(gdb) info thread 
  5 Thread 0x41e37940 (LWP 6722)  0x0000003d1a80d4c4 in __lll_lock_wait () 
  from /lib64/libpthread.so.0 
  4 Thread 0x42838940 (LWP 6723)  0x0000003d1a80d4c4 in __lll_lock_wait () 
  from /lib64/libpthread.so.0 
  3 Thread 0x43239940 (LWP 6724)  0x0000003d19c9a541 in nanosleep () 
 from /lib64/libc.so.6 
  2 Thread 0x43c3a940 (LWP 6725)  0x0000003d19c9a541 in nanosleep () 
 from /lib64/libc.so.6 
 * 1 Thread 0x2b984ecabd90 (LWP 6721)  0x0000003d1a807b35 in pthread_join () 
 from /lib64/libpthread.so.0 

切换到线程5的输出:

(gdb) thread 5 
 [Switching to thread 5 (Thread 0x41e37940 (LWP 6722))]#0  0x0000003d1a80d4c4 in 
 __lll_lock_wait () from /lib64/libpthread.so.0 
 (gdb) where 
 #0  0x0000003d1a80d4c4 in __lll_lock_wait () from /lib64/libpthread.so.0 
 #1  0x0000003d1a808e1a in _L_lock_1034 () from /lib64/libpthread.so.0 
 #2  0x0000003d1a808cdc in pthread_mutex_lock () from /lib64/libpthread.so.0 
 #3  0x0000000000400a9b in func1 () at lock.cpp:18 
 #4  0x0000000000400ad7 in thread1 (arg=0x0) at lock.cpp:43 
 #5  0x0000003d1a80673d in start_thread () from /lib64/libpthread.so.0 
 #6  0x0000003d19cd40cd in clone () from /lib64/libc.so.6 

线程4和线程5的输出:

(gdb) f 3 
 #3  0x0000000000400a9b in func1 () at lock.cpp:18 
 18          pthread_mutex_lock(&mutex2); 
 (gdb) thread 4 
 [Switching to thread 4 (Thread 0x42838940 (LWP 6723))]#0  0x0000003d1a80d4c4 in 
 __lll_lock_wait () from /lib64/libpthread.so.0 
 (gdb) f 3 
 #3  0x0000000000400a17 in func2 () at lock.cpp:31 
 31          pthread_mutex_lock(&mutex1); 
 (gdb) p mutex1 
 $1 = {__data = {__lock = 2, __count = 0, __owner = 6722, __nusers = 1, __kind = 0, 
 __spins = 0, __list = {__prev = 0x0, __next = 0x0}}, 
  __size = "\002\000\000\000\000\000\000\000B\032\000\000\001", '\000'
 <repeats 26 times>, __align = 2} 
 (gdb) p mutex3 
 $2 = {__data = {__lock = 0, __count = 0, __owner = 0, __nusers = 0, 
 __kind = 0, __spins = 0, __list = {__prev = 0x0, __next = 0x0}}, 
 __size = '\000' <repeats 39 times>, __align = 0} 
 (gdb) p mutex2 
 $3 = {__data = {__lock = 2, __count = 0, __owner = 6723, __nusers = 1, 
 __kind = 0, __spins = 0, __list = {__prev = 0x0, __next = 0x0}}, 
  __size = "\002\000\000\000\000\000\000\000C\032\000\000\001", '\000'
 <repeats 26 times>, __align = 2} 
 (gdb) 

       从上面可以发现,线程 4 正试图获得锁 mutex1,但是锁 mutex1 已经被 LWP 为 6722 的线程得到(__owner = 6722),线程 5 正试图获得锁 mutex2,但是锁 mutex2 已经被 LWP 为 6723 的 得到(__owner = 6723),从 pstack 的输出可以发现,LWP 6722 与线程 5 是对应的,LWP 6723 与线程 4 是对应的。所以我们可以得出, 线程 4 和线程 5 发生了交叉持锁的死锁现象。查看线程的源代码发现,线程 4 和线程 5 同时使用 mutex1 和 mutex2,且申请顺序不合理。


总结

       本文简单介绍了一种在 Linux 平台下分析死锁问题的方法,对一些死锁问题的分析有一定作用。希望对大家有帮助。理解了死锁的原因,尤其是产生死锁的四个必要条件,就可以最大可能地避免、预防和解除死锁。所以,在系统设计、进程调度等方面注意如何不让这四个必要条件成立,如何确定资源的合理分配算法,避免进程永久占据系统资源。此外,也要防止进程在处于等待状态的情况下占用资源 , 在系统运行过程中,对进程发出的每一个系统能够满足的资源申请进行动态检查,并根据检查结果决定是否分配资源,若分配后系统可能发生死锁,则不予分配,否则予以分配。因此,对资源的分配要给予合理的规划,使用有序资源分配法和银行家算法等是避免死锁的有效方法。

转载于:https://www.cnblogs.com/wangfengju/p/6172482.html

Linux 系统中查看和诊断死锁问题,可以通过多种方法和工具来实现。这些方法涵盖了从用户空间到内核空间的不同层面,具体包括以下几种方式: ### 使用系统工具进行死锁诊断 1. **`ps` 命令** `ps` 可用于查看进程的状态。如果多个进程处于 `D`(不可中断睡眠)状态,则可能涉及锁资源争用或死锁问题。例如: ```bash ps -ef | grep <进程名或PID> ``` 这可以帮助识别哪些进程可能处于阻塞状态 [^2]。 2. **`strace` 命令** `strace` 能够跟踪进程的系统调用,适用于检查进程是否卡在某个特定的系统调用上(如 `futex` 调用),这可能表明存在死锁。例如: ```bash strace -p <PID> ``` 通过观察输出,可以判断进程是否在等待锁资源 [^2]。 3. **`lsof` 命令** `lsof` 可用于检查文件或资源锁,例如检查文件是否被多个进程占用。例如: ```bash lsof | grep <文件名或PID> ``` 如果发现多个进程锁定了同一文件,这可能是死锁的迹象 。 4. **`pstack` 和 `gdb` 工具** `pstack` 可以快速打印进程的线程堆栈,而 `gdb` 提供了更详细的调试功能。通过分析线程堆栈,可以判断多个线程是否卡在等待锁的状态。例如: ```bash pstack <PID> ``` 如果多个线程都卡在 `pthread_mutex_lock` 或类似函数中,则可能存在死锁 [^2]。 5. **`/proc/<PID>/stack` 文件** 通过读取 `/proc/<PID>/stack` 文件,可以直接查看进程的线程堆栈信息。例如: ```bash cat /proc/<PID>/stack ``` 这可以用于检查是否涉及 `futex` 死锁 [^2]。 6. **`perf` 和 `lockstat` 工具** `perf` 是 Linux 的性能分析工具,`lockstat` 是 `perf` 的一个子命令,专门用于分析锁争用情况。例如: ```bash perf lockstat -p <PID> ``` 这可以帮助识别哪些锁被频繁争用,从而可能引发死锁 [^2]。 7. **`dmesg` 命令** `dmesg` 可以查看内核日志,如果内核检测到死锁(如某些锁在长时间未释放),可能会在日志中记录相关信息。例如: ```bash dmesg | grep -i deadlock ``` 这可以用于确认是否存在内核级别的死锁 [^2]。 ### 使用用户空间工具检测死锁 1. **Hook 检测死锁** 在用户空间中,可以通过 Hook 机制拦截锁操作(如 `pthread_mutex_lock` 和 `pthread_mutex_unlock`)。通过记录每个线程的锁获取和释放操作,可以判断是否存在死锁。例如,可以使用 `dlsym()` 函数动态绑定锁函数,并记录线程 ID 和锁的绑定关系 [^1]。 2. **图算法检测死锁** 图算法是一种经典的死锁检测方法。通过构建资源分配图,可以判断是否存在循环依赖。具体步骤包括: - **图的构建**:将线程和锁分别表示为图中的节点,并记录锁的获取和释放关系。 - **图的使用**:遍历图中的节点,检查是否存在循环依赖。如果存在循环依赖,则表明发生死锁 [^3]。 ### 示例代码:Hook 检测死锁 以下是一个简单的 Hook 检测死锁的示例代码: ```c #include <stdio.h> #include <dlfcn.h> #include <pthread.h> #include <unistd.h> #include <map> #include <mutex> // 定义互斥锁和线程 ID 的映射关系 std::map<pthread_mutex_t*, pthread_t> lock_map; std::mutex lock_mutex; // 动态链接库中的 pthread_mutex_lock 函数指针 int (*real_pthread_mutex_lock)(pthread_mutex_t*) = nullptr; // Hook 的 pthread_mutex_lock 函数 int pthread_mutex_lock(pthread_mutex_t* mutex) { if (!real_pthread_mutex_lock) { real_pthread_mutex_lock = (int (*)(pthread_mutex_t*)) dlsym(RTLD_NEXT, "pthread_mutex_lock"); } pthread_t self = pthread_self(); std::lock_guard<std::mutex> guard(lock_mutex); // 检查是否存在死锁 if (lock_map.find(mutex) != lock_map.end()) { pthread_t owner = lock_map[mutex]; if (owner != self) { printf("Potential deadlock detected: Thread %lu is waiting for a lock held by Thread %lu\n", self, owner); } } // 记录当前线程持有锁 lock_map[mutex] = self; return real_pthread_mutex_lock(mutex); } // 动态链接库中的 pthread_mutex_unlock 函数指针 int (*real_pthread_mutex_unlock)(pthread_mutex_t*) = nullptr; // Hook 的 pthread_mutex_unlock 函数 int pthread_mutex_unlock(pthread_mutex_t* mutex) { if (!real_pthread_mutex_unlock) { real_pthread_mutex_unlock = (int (*)(pthread_mutex_t*)) dlsym(RTLD_NEXT, "pthread_mutex_unlock"); } std::lock_guard<std::mutex> guard(lock_mutex); // 解除锁和线程的绑定 lock_map.erase(mutex); return real_pthread_mutex_unlock(mutex); } ``` ### 总结 在 Linux 系统中,死锁的诊断和检测可以通过多种工具和方法实现。从系统工具(如 `ps`、`strace` 和 `lsof`)到用户空间的 Hook 机制,再到图算法分析,每种方法都有其适用场景。结合这些工具和方法,可以有效地定位和解决死锁问题。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值