线程
下表将线程与进程进行简单对比:
线程 | 进程 |
---|---|
操作系统调度的最小单位 | 操作系统分配资源的最小单位 |
直接共享全局变量等资源 | 通过线程间通讯手段进行通讯 |
一个应用程序可以创建多个线程 | 一份程序只对应一个线程,但是线程内可以创建另一个线程(新的程序副本) |
使用pthread_create创建 | 使用fork创建 |
线程特性
相比进程的优点:
- 更加简单高效的线程间同步与通讯(直接访问全局变量来通讯,通过锁同步;而进程间的同步和通讯比较复杂,相对来说效率更低);
- 系统调用线程所需要消耗的资源和时间远比进程要少;
相比进程的缺点:
- 一个线程的崩溃可能导致整个程序的其他线程跟着一起完蛋,而进程崩了一个会有操作系统保护,不会波及其他进程;
- 线程间交互的不确定性使得程序更加难以调试;
编译事项
在编写多线程程序时,需要注意以下几点:
- 通过包含pthread.h头文件来使用线程相关的函数;
- 在编译时需要定义_REENTRANT宏定义,具体原因见本节结尾的引用段落;
- 在链接阶段时使用-lpthread选项来链接多线程库;
比如编译由threads.c文件组成的多线程程序,我们可以这么编译:
gcc -D_REENTRANT -o threads threads.c -lpthread
以下引用自《Linux程序设计》的内容解释了为什么需要定义_REENTRANT宏定义:
在设计最初的UNIX和POSIX库例程时,人们假设每个进程中只有一个执行线程。一个明显的例子就是errno,该变量用于获取某个函数调用失败后的错误信息。在一个多线程程序里,默认情况下,只有一个errno变量供所有线程共享。在一个线程准备获取刚才的错误代码时,该变量很容易被另一个线程中的函数调用所改变。类似的问题还存在于fputs之类的函数中,这些函数通常用一个全局性区域来缓存输出数据。
为了解决这个问题,我们需要使用被称为可重入的例程。可重入代码可以被多次调用而任然正常工作,这些调用可以来自不同的线程,也可以是某种形式的嵌套调用。因此,代码中的可重入部分通常只使用局部变量,这使得每次对该代码的调用都将获得它自己的唯一的一份数据副本。
编写多线程程序时,我们通过定义宏_REENTRANT来告诉编译器我们需要可重入功能,这个宏的定义必须位于程序中的任何#include语句之前。它将为我们做3件事,并且做得非常优雅,以至于我们一般不需要直到它到底做了哪些事。
- 它会对部分函数重新定义它们的可安全重入的版本,这些函数的名字一般不会发生改变,只是会在函数名后面添加_r字符串。例如,函数名gethostbyname将变为gethostbyname_r。
- stdio.h中原来以宏的形式实现的一些函数将会变成可安全重入的函数。
- 在errno.h中定义的变量errno现在将成为一个函数调用,它能够以一种多线程安全的方式来获取真正的errno值。
线程创建与销毁
使用以下函数来创建一个线程:
/**
* 以下函数用于创建一个线程,
* __newthread用于记录线程信息,
* __attr用于设置线程属性(不需要可以设置为NULL),
* __start_routine为线程开始执行的函数,__arg为传递给线程的用户参数,
* 成功返回0,否则返回其他值并设置errno变量
*/
extern int pthread_create (pthread_t *__restrict __newthread,
const pthread_attr_t *__restrict __attr,
void *(*__start_routine) (