Linux 多进程与多线程

多线程程序里不准使用fork
UNIX上C++程序设计守则3
准则3:多线程程序里不准使用fork
在多线程程序里,在”自身以外的线程存在的状态”下一使用fork的话,就可能引起各种各样的问题.比较典型的例子就是,fork出来的子进程可能会死锁.请不要,在不能把握问题的原委的情况下就在多线程程序里fork子进程.
能引起什么问题呢?
那看看实例吧.一执行下面的代码,在子进程的执行开始处调用doit()时,发生死锁的机率会很高.

void* doit(void*) {

    static pthread_mutex_t mutex = PTHREAD_MUTEX_INITIALIZER;

    pthread_mutex_lock(&mutex);

  struct timespec ts = {10, 0}; 

    nanosleep(&ts, 0); 

       pthread_mutex_unlock(&mutex);
       return 0;
      }
 int main(void) {
  pthread_t t; 
  pthread_create(&t, 0, doit, 0); 

    if (fork() == 0) {

        doit(0); return 0;

    }

pthread_join(t, 0); }


以下是说明死锁的理由.
一般的,fork做如下事情
   1. 父进程的内存数据会原封不动的拷贝到子进程中
   2. 子进程在单线程状态下被生成
在内存区域里,静态变量*2mutex的内存会被拷贝到子进程里.而且,父进程里即使存在多个线程,但它们也不会被继承到子进程里. fork的这两个特征就是造成死锁的原因.
译者注: 死锁原因的详细解释 ---
    1. 线程里的doit()先执行.
    2. doit执行的时候会给互斥体变量mutex加锁.
    3. mutex变量的内容会原样拷贝到fork出来的子进程中(在此之前,mutex变量的内容已经被线程改写成锁定状态).
    4. 子进程再次调用doit的时候,在锁定互斥体mutex的时候会发现它已经被加锁,所以就一直等待,直到拥有该互斥体的进程释放它(实际上没有人拥有这个mutex锁).
    5. 线程的doit执行完成之前会把自己的mutex释放,但这是的mutex和子进程里的mutex已经是两份内存.所以即使释放了mutex锁也不会对子进程里的mutex造成什么影响.
例如,请试着考虑下面那样的执行流程,就明白为什么在上面多线程程序里不经意地使用fork就造成死锁了*3.
1.    在fork前的父进程中,启动了线程1和2
2.    线程1调用doit函数
3.    doit函数锁定自己的mutex
4.    线程1执行nanosleep函数睡10秒
5.    在这儿程序处理切换到线程2
6.    线程2调用fork函数
7.    生成子进程
8.    这时,子进程的doit函数用的mutex处于”锁定状态”,而且,解除锁定的线程在子进程里不存在
9.    子进程的处理开始
10.   子进程调用doit函数
11.   子进程再次锁定已经是被锁定状态的mutex,然后就造成死锁
像这里的doit函数那样的,在多线程里因为fork而引起问题的函数,我们把它叫做”fork-unsafe函数”.反之,不能引起问题的函数叫做”fork-safe函数”.虽然在一些商用的UNIX里,源于OS提供的函数(系统调用),在文档里有fork-safety的记载,但是在Linux(glibc)里当然!不会被记载.即使在POSIX里也没有特别的规定,所以那些函数是fork-safe的,几乎不能判别.不明白的话,作为unsafe考虑的话会比较好一点吧.(2004/9/12追记)Wolfram Gloger说过,调用异步信号安全函数是规格标准,所以试着调查了一下,在pthread_atforkの这个地方里有” In the meantime*5, only a short list of async-signal-safe library routines are promised to be available.”这样的话.好像就是这样.

随便说一下,malloc函数就是一个维持自身固有mutex的典型例子,通常情况下它是fork-unsafe的.依赖于malloc函数的函数有很多,例如printf函数等,变成fork-unsafe的.
直到目前为止,已经写上了thread+fork是危险的,但是有一个特例需要告诉大家.”fork后马上调用exec的场合,是作为一个特列不会产生问题的”. 什么原因呢..? exec函数*6一被调用,进程的”内存数据”就被临时重置成非常漂亮的状态.因此,即使在多线程状态的进程里,fork后不马上调用一切危险的函数,只是调用exec函数的话,子进程将不会产生任何的误动作.但是,请注意这里使用的”马上”这个词.即使exec前仅仅只是调用一回printf(“I’m child process”),也会有死锁的危险.
译者注:exec函数里指明的命令一被执行,改命令的内存映像就会覆盖父进程的内存空间.所以,父进程里的任何数据将不复存在.
如何规避灾难呢?
为了在多线程的程序中安全的使用fork,而规避死锁问题的方法有吗?试着考虑几个.
规避方法1:做fork的时候,在它之前让其他的线程完全终止.
在fork之前,让其他的线程完全终止的话,则不会引起问题.但这仅仅是可能的情况.还有,因为一些原因而其他线程不能结束就执行了fork的时候,就会是产生出一些解析困难的不具合的问题.

规避方法2:fork后在子进程中马上调用exec函数
(2004/9/11 追记一些忘了写的东西)
不用使用规避方法1的时候,在fork后不调用任何函数(printf等)就马上调用execl等,exec系列的函数.如果在程序里不使用”没有exec就fork”的话,这应该就是实际的规避方法吧.
译者注:笔者的意思可能是把原本子进程应该做的事情写成一个单独的程序,编译成可执行程序后由exec函数来调用.
规避方法3:”其他线程”中,不做fork-unsafe的处理 
除了调用fork的线程,其他的所有线程不要做fork-unsafe的处理.为了提高数值计算的速度而使用线程的场合*7,这可能是fork-safe的处理,但是在一般的应用程序里则不是这样的.即使仅仅是把握了那些函数是fork-safe的,做起来还不是很容易的.fork-safe函数,必须是异步信号安全函数,而他们都是能数的过来的.因此,malloc/new,printf这些函数是不能使用的.
规避方法4:使用pthread_atfork函数,在即将fork之前调用事先准备的回调函数.
使用pthread_atfork函数,在即将fork之前调用事先准备的回调函数,在这个回调函数内,协商清除进程的内存数据.但是关于OS提供的函数(例:malloc),在回调函数里没有清除它的方法.因为malloc里使用的数据结构在外部是看不见的.因此,pthread_atfork函数几乎是没有什么实用价值的.

规避方法5:在多线程程序里,不使用fork
就是不使用fork的方法.即用pthread_create来代替fork.这跟规避策2一样都是比较实际的方法,值得推荐.

*1:生成子进程的系统调用
*2:全局变量和函数内的静态变量
*3:如果使用Linux的话,查看pthread_atfork函数的man手册比较好.关于这些流程都有一些解释.
*4:Solaris和HP-UX等
*5:从fork后到exec执行的这段时间
*6:≒execve系统调用
*7:仅仅做四则演算的话就是fork-safe的
### 回答1: Linux是一种支持多进程多线程的操作系统。多进程指一个程序可以被分成多个进程同时运行,每个进程拥有自己的内存空间和运行环境,它们之间通过进程间通信进行通信和数据共享;而多线程指一个进程中可以拥有多个线程并行执行,共享同一份内存空间和运行环境,具有更高的并发性和效率。Linux支持通过Thread模块、PThread库和POSIX等方式来实现多线程多进程多线程的应用广泛,可以使系统更加高效稳定和具有更好的用户体验。 ### 回答2: 首先,Linux多进程是指一个程序同时运行多个进程,每个进程有自己的空间和资源,互相独立。每个进程都可以独立执行,有自己的数据空间和代码空间,能够完成不同的任务。在Linux系统中,通过fork()系统调用可以创建新进程,通过exec()可以加载新程序到进程中。 相比之下,Linux多线程是在一个进程内部同时运行多个线程,每个线程共享同一个地址空间和资源。多线程可以提高程序的并发性,加快多个任务的执行速度。通过pthread_create()函数可以在程序中创建新线程。 在使用多进程时,每个进程独立运行,内存空间独立,因此进程之间的数据交换比较麻烦,需要通过网络、管道等手段进行通信。而多线程共享同一个地址空间,数据交换更加方便快捷,只需要在不同线程之间直接传递数据即可。 另外,多线程也可以避免上下文切换所带来的开销,因为线程切换比进程切换要快,所以多线程可以提高系统性能,但是多线程编程需要考虑线程之间的同步和互斥,以及死锁等问题,需要更加谨慎。 总的来说,Linux多进程多线程都有其适用的场景和优缺点,需要根据具体的需求来选择合适的编程方式。 ### 回答3: Linux是一种基于unix的操作系统,具有很强的稳定性和可靠性。Linux同时支持多进程多线程,这使得它在并发性方面具有优势。 多进程是指在同一时间内运行多个进程,每个进程之间相互独立,拥有自己的地址空间和资源。每个进程都有一个唯一的进程标识符pid,可以通过pid来查找和管理进程。多进程的好处是可以提高系统的并行效率,同时还能保证进程间数据的隔离性,但是进程间通信需要使用IPC(inter-process communication)机制,会导致一些额外的开销。 多线程是指在同一时间内运行多个线程,线程是轻量级的进程。同一个进程内的不同线程共享相同的地址空间和资源,更加高效。多线程的好处是可以提高系统的并发性,同时也可以共享进程内部的资源,减少进程间的通信开销。但是,多线程会涉及到线程同步和互斥问题,需要使用锁等机制来保证线程的安全性。 在应用程序的设计中,通常需要选择使用多进程还是多线程,这需要根据具体的应用场景来决定。如果应用程序需要执行不同的任务,或者每个任务需要使用不同的资源,则可以考虑使用多进程;如果需要执行相同的任务,但是需要对任务进行分割和分配,或者需要共享资源,则可以考虑使用多线程。 总之,Linux多进程多线程都可以提高系统的并发性和响应速度,但需要在具体场景下选择合适的方式来实现。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值