多线程之你真的了解Spin_lock吗?(四)

本文探讨了 Pthread_spin_lock 和 Spin_lock 的区别及其应用场景,分析了 Spin_lock 在单核非抢占内核中的意义,并通过实验对比了 Spin_lock 与 Mutex 的性能差异。

1. 写在之前

在阅读本文前,如果下面的问题您都能回答出来,那么本文你可以从略。

  • Pthread_spin_lockSpin_lock的区别?
  • Spin_lock对于单核非抢占内核,为何是无意义的?
  • 那么中断处理函数的执行是在内核态或者用户态呢?

如果上面3个问题,您都能回答出来,说明本文所讲述的内容,您大体上都了解了。本文基于Pthread_spin_lock探究下其用法及进行相关的实验。

2. 基本概念

首先不要搅浑任务调度和内核抢占,两个概念是指着不同的角度说的。内核抢占是对于处于内核态的进程是否能被调度的描述,而任务调度是指进程处于用户态时发生的调度。那么对于非抢占内核和抢占内核,在用户态的调度是没有区别的,但是在内核态对待调度行为的差别区分了抢占内核和非抢占内核。以下描述取自 《ULK 3th 》:

in nonpreemptive kernels, the current process cannot be replaced unless it is about to switch to User Mode.

以下内容摘自维基百科:

Kernel preemption is a method used mainly in monolithic and hybrid kernels where all or most device drivers are run in kernel space, whereby the scheduler is permitted to forcibly perform a context switch (i.e. preemptively schedule; on behalf of a runnable and higher priority process) on a driver or other part of the kernel during its execution, rather than co-operatively waiting for the driver or kernel function (such as a system call) to complete its execution and return control of the processor to the scheduler.

本文不打算介绍内核调度机制,但是基本的概念要明白:在内核可抢占的系统中,调度可以发生在内核态的执行过程,换句话说,对于非抢占的系统中,调度只能等内核态的执行流执行完,不要混淆调度算法中每个进程时间片耗尽时任务调度,对于非抢占和抢占内核,在用户态的切换应该是没有区别的。区别只发生在一种场景:在内核态的任务调度的处理方式!
  回过头来思考第一个问题:
Pthread_spin_lockSpin_lock的区别?
答案应该是即相互区别又相互联系,前者用在用户态的编程,后者用在内核态的编程。如果进行应用程序的开发,那么前者是我们的实现spin_lock的手段。但当我们进行驱动编程或者内核态进程编程时,后者就是我们实现spin_lock的手段。

第二个问题:Spin_lock对于单核非抢占内核,为何是无意义的?

以下资料来自quora, 该回答太棒了,因为比较多,笔者节选了其中部分。

Time Sliced Scheduling: In this scenario what happens is, Process A acquires the spin lock for resource X and then having exhausted its time slice is swapped for Process B. The Process B attempts to acquire the spin lock and starts busy-waiting for the lock to be free’d. After a while, it completes its time slice and is Process A is swapped back on the CPU and continues processing. This cycle repeats until process A completes its task and releases the lock at which point Process B can now acquire the lock and start working. Do you see how wasteful this scenario was?

如果您不想看英文,那么看看我的总结:有人会说,在单核中会发生deadlock,这不准确。取决于使用何种调度算法,还有使用的spin_lock发生内核态还是用户态,如果使用CFS调度算法及在用户态进行spin_lock,此时会严重降低系统性能。有些调度算法比如EDF,则会造成dead_lock。
  那么上面还是没有提到
抢占非抢占的概念
,如果我们使用spin_lock在内核态,比如在驱动编写中Spin_lock如果针对的是非抢占的内核,而系统又是单核的话,这就是灾难!
  第三个问题:那么中断处理函数的执行实在内核态或者用户态呢? 这个答案是百分之百在内核态,并且在处理完中断返回的时候,如果被中断的时候进程处于用户态,则中断处理函数返回的时候会发生一次调度。

3. 主要API

#include <pthread.h>
int pthread_spin_init(pthread_spinlock_t *lock, int pshared);
int pthread_spin_destroy(pthread_spinlock_t *lock);
Both return: 0 if OK, error number on failure

int pthread_spin_lock(pthread_spinlock_t *lock);
int pthread_spin_trylock(pthread_spinlock_t *lock);
int pthread_spin_unlock(pthread_spinlock_t *lock);
All return: 0 if OK, error number on failure

简单阐述下pthread_spin_lock的用法:

  • pthread_spin_init初始化一个锁,pthread_spin_lock当前线程加锁,如果未获得锁,将一直忙等待,此时该线程上的cpu一直处于忙等待。
  • 如果调度算法为CFS,那么spin_lock可能会降低系统性能。只有靠我们自己评估context switch和spin_lock的代价大小了。

NOTE: 以上步骤假设使用SMP架构处理器

4. 实验

如果我们简单的将我们上一篇使用的Mutex替换为spin_lock,看看会发生什么?

4.1 测试一:
[root@localhost ~]# diff -Naur 11_4.c 11_6.c
--- 11_4.c      2018-02-09 17:48:17.463201599 +0800
+++ 11_6.c      2018-02-09 20:09:33.666472377 +0800
@@ -13,7 +13,7 @@
 };
 
 struct foo *fh[NHASH];
-pthread_mutex_t hashlock = PTHREAD_MUTEX_INITIALIZER;
+pthread_spinlock_t spin;
 pthread_mutex_t hashr_mutex = PTHREAD_MUTEX_INITIALIZER;
 pthread_cond_t hashr_cond = PTHREAD_COND_INITIALIZER;
 
@@ -28,12 +28,12 @@
         if ((fp = malloc(sizeof(struct foo))) != NULL)
         {
                 fp->f_id = id;
-                foo_printf(fp);
                 idx = HASH(id);
-                pthread_mutex_lock(&hashlock);
+                pthread_spin_lock(&spin);
                 fp->f_next = fh[idx];
                 fh[idx] = fp;
-                pthread_mutex_unlock(&hashlock);
+                foo_printf(fp);
+                pthread_spin_unlock(&spin);
         }
         return(fp);
 }
@@ -41,7 +41,7 @@
 struct foo * foo_find(int id)
 {
         struct foo * fp;
-        pthread_mutex_lock(&hashlock);
+        pthread_spin_lock(&spin);
         for (fp = fh[HASH(id)]; fp != NULL; fp = fp->f_next)
         {
                 if (fp->f_id == id)
@@ -49,7 +49,7 @@
                         break;
                 }
         }
-        pthread_mutex_unlock(&hashlock);
+        pthread_spin_unlock(&spin);
         return(fp);
 }
 
@@ -57,18 +57,18 @@
 {
         struct foo * fp;
        struct foo * fp1;
-        pthread_mutex_lock(&hashlock);
+        pthread_spin_lock(&spin);
         for (fp = fh[HASH(id)]; fp != NULL; fp = fp->f_next)
         {
                 if (fp->f_id == id)
                 {
-                        if( fp == fh[HASH(id)])
+                        if(fp == fh[HASH(id)])
                         {
                                 fh[HASH(id)] = fp->f_next;
                         }
                         else
                         {
-                            fp1=fh[HASH(id)];
+                                fp1=fh[HASH(id)];
                                 while (fp1->f_next != fp)
                                         fp1 = fp1->f_next;
                                 fp1->f_next = fp->f_next;
@@ -76,7 +76,7 @@
                         break;
                 }
         }
-        pthread_mutex_unlock(&hashlock);
+        pthread_spin_unlock(&spin);
         if(fp == NULL)
                 return 1;
         free(fp);
@@ -124,8 +124,9 @@
         int done[3]={4,4,4};
         pthread_t tid;
         char i=0;
+       pthread_spin_init(&spin,PTHREAD_PROCESS_PRIVATE);
         for( num=0;num<NHASH;num++)
-        {                                                                                                                                                                                                             
+        {
                 err = pthread_create(&tid, NULL, thr_fn,(void *)(num*NHASH));
                 if (err != 0)
                         errx(1, "can’t create thread:%d\n",num);

结果如下:

[root@localhost ~]# ./11_6
thread 140351228299008, foo_id:0
thread 140351219906304, foo_id:3
thread 140351236589312, foo_id:0
thread 140351142622976, foo_id:6
thread 140351236589312, foo_id:3
thread 140351236589312, foo_id:6

正常完成了测试,发现竟然简单的替换就成功了。但是需要进行下简单的时间测试,增加测试时间的代码(为了篇幅,不贴出来)并与上个使用mutex的实验对比,结果如下:

//spin_lock版本
[root@localhost ~]# ./11_6_1                           
thread 140228922906368, foo_id:0
thread 140228914513664, foo_id:3
thread 140228931196672, foo_id:0
thread 140228906120960, foo_id:6
thread 140228931196672, foo_id:3
thread 140228931196672, foo_id:6
run time:3769

//mutex版本
[root@localhost ~]# ./11_6_2
thread 140255847200512, foo_id:0
thread 140255830415104, foo_id:6
thread 140255838807808, foo_id:3
thread 140255855490816, foo_id:0
thread 140255855490816, foo_id:3
thread 140255855490816, foo_id:6
run time:2139

Spin_lock版本比mutex版本运行的时间还要长,也就是说spin_lock不适合在这样的场合!比较笼统的解释这样的结果就是spin_lock自身进行忙等待的消耗大于了mutex所引发的线程调度的上下文切换的开销,说白了就是spin所保护的代码段所进行的操作比较长。

4.2 测试二:
[root@localhost ~]# diff -Naur 11_6.c 11_6_3.c
--- 11_6.c      2018-02-09 20:09:33.666472377 +0800
+++ 11_6_3.c    2018-02-09 20:12:12.235815697 +0800
@@ -33,7 +33,7 @@
                 fp->f_next = fh[idx];
                 fh[idx] = fp;
                 foo_printf(fp);
-                pthread_spin_unlock(&spin);
+               // pthread_spin_unlock(&spin); 刻意不释放锁
         }
         return(fp);
 }

结果:

[root@localhost ~]# ./11_6_3                                                      
thread 139762245465856, foo_id:0
//程序卡死在这里

这里写图片描述
  
  3个核心deadlock,因为有一个线程调用了foo_alloc,首先获得了锁,然后又会调用pthread_cond_wait从而自己sleep了。此时其他的两个线程就会deadlock,然而主线程当其调用foo_find时也会deadlock。所以top命令的结果如上所示。同时从侧面我们也发现Linux任务调度的单位是线程,在Linux线程本质上作为进程处理,更具体详细的信息需要看相关内核调度的知识了。

5. 留在最后

接触了spin_lock,笔者才发现自己的内功太浅,以后会再把内核相关的书好好看看,因为有些问题是基本功!笔者注意到驱动编程和在应用层编程区别有些明显啊,在使用POSIX接口API进行编程的时候,不应该考虑到内核层面,所以我得出一个结论:进行POSIX编程时,忽略内核层面特征,只考虑API本身的特征,举例:多线程就考虑多个执行流同时执行,别瞎想什么调度啊,内核态用户态什么哒~

<think>嗯,用户这次想了解_raw_spin_lock的使用方法和原理。从引用内容看,用户已经查阅了一些关于spinlock的资料,特别是Raw_spin_lock的实现细节。用户可能是内核开发者或系统程序员,正在调试并发问题。 注意到引用[1]详细展示了_raw_spin_lock的调用链:从spin_lock到__raw_spin_lock,再到do_raw_spin_trylock和arch_spin_lock。这个过程体现了自旋锁的层次化设计——高层API逐步下沉到架构相关的底层实现。用户可能特别关注这个调用路径,说明ta在追踪锁竞争时的堆栈。 引用[4]解释了关键概念:临界区保护的必要场景(多线程、中断、SMP),这正好对应_raw_spin_lock要解决的三个核心问题。而引用[5]补充了单处理器环境下中断的影响,说明_raw_spin_lock需要同时处理抢占和中断。 用户提供的汇编片段(引用[2][3])很有价值,特别是__raw_spin_unlock中那条str汇编指令——将锁值置0的原子操作。这揭示了自旋锁的本质:通过CPU原子指令操作内存中的锁标志。不过用户当前询问的是_lock而非_unlock,我需要重点解释获取锁的机制。 考虑到用户正在研究底层实现,回答需要包含: 1 使用场景——什么时候需要_raw_spin_lock这种原始锁 2 SMP下的循环尝试机制(arch_spin_trylock的循环逻辑) 3 关键细节:内存屏障(smp_mb)、原子操作、中断处理 4 警告——常见误用场景(比如在中断上下文中忘记用spin_lock_irqsave) 用户没有提到具体架构,但引用中出现arch_spin_lock暗示需要区分x86/ARM等不同实现。为保持普适性,回答应聚焦通用原理,同时提示架构差异的存在。 </think>以下基于提供的引用信息,系统整理 `_raw_spin_lock` 的使用方法和原理: --- ### **一、原理** 1. **核心目的** 保护临界区代码,防止并发冲突: - **多核竞争**:其他 CPU 核尝试访问同一共享资源时陷入忙等待。 - **中断抢占**:中断上下文尝试获取已被持有的锁时导致死锁(需结合 `_raw_spin_lock_irqsave`)[^4][^5]。 2. **底层实现流程** 调用链为: ```c spin_lock -> _raw_spin_lock -> do_raw_spin_trylock -> arch_spin_lock ``` - **快速路径**:若锁空闲(`do_raw_spin_trylock` 成功),直接获取锁并返回。 - **慢速路径**:若锁被占用,进入循环忙等待(`arch_spin_lock`),在指定次数内重试直到成功[^1]。 3. **关键操作** - **加锁**:通过原子指令(如 ARM 的 `ldrex/strex` 或 x86 的 `LOCK` 前缀)修改锁状态。 - **内存屏障**:`smp_mb()` 确保临界区内外的指令顺序不被重排[^2][^3]。 - **解锁**:将锁值置 0(如 `str %1, [%0]` 汇编指令)[^2][^3]。 --- ### **二、使用方法** ```c #include <linux/spinlock.h> // 1. 声明自旋锁 static DEFINE_SPINLOCK(my_lock); void critical_section(void) { unsigned long flags; // 2. 加锁(禁止中断,保存中断状态到 flags) spin_lock_irqsave(&my_lock, flags); // 3. 临界区代码(访问共享资源) // ... // 4. 解锁(恢复中断状态) spin_unlock_irqrestore(&my_lock, flags); } ``` #### **关键规范:** 1. **中断上下文** 必须使用 `spin_lock_irqsave/spin_unlock_irqrestore` 避免死锁。若在进程上下文使用普通 `spin_lock`,中断可能抢占并尝试获取已持有的锁[^5]。 2. **临界区设计** - 代码执行时间尽可能短(长时间持有锁会导致 CPU 空转)。 - 禁止在临界区内触发调度(如调用 `kmalloc(GFP_KERNEL)`)[^4]。 3. **SMP 适应性** 自旋锁在单核与多核系统行为不同: - **单核**:退化为止抢占(等效 `preempt_disable()`)[^4][^5]。 - **多核**:其他核循环检测锁状态直到可用。 --- ### **三、注意事项** - **死锁风险**:不可递归获取同一锁,也不可在持有锁时调用可能获取其他锁的函数。 - **性能影响**:高频锁竞争会显著降低性能,需考虑优化为读写锁(`rwlock_t`)或无锁结构。 - **调试工具**:使用 `CONFIG_DEBUG_SPINLOCK` 检测未初始化或重复加锁问题。 ---
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值