linux进程描述符—task_struct结构
为了管理进程,操作系统必须对每个进程所做的事情进行清楚地描述,为此,操作系统使用数据结构来代表处理不同的实体,这个数据结构就是通常所说的进程描述符或进程控制块,在linux系统中,这就是task_struct结构,在include\linux\sched.h文件中定义。每个进程都会被分配一个task_struct结构,它包含了这个进程的所有信息,在任何时候操作系统都能跟踪这个结构的信息,这个结构是linux内核汇总最重要的数据结构,下面我们会详细的介绍。这个结构的源代码及其注释如下,之后对其进行了分类解释。
//进程描述符task_struct
struct task_struct {
/* * offsets of these are hardcoded elsewhere - touch with care
*/ volatile long state; /* -1 unrunnable, 0 runnable, >0 stopped */ //-1 不能运行 0 运行 >0 停止
unsigned long flags; /* per process flags, defined below *///进程标志,在下面定义
int sigpending; //进程上是否有待处理的信号
mm_segment_t addr_limit; /* thread address space:进程地址空间
0-0xBFFFFFFF for user-thead
0-0xFFFFFFFF for kernel-thread
*/
volatile long need_resched; //调度标志,表示该进程是否需要重新调度,若非0,则当从内核态返回到用户态,会发生调度
int lock_depth; /* Lock depth *///锁深度
/* * offset 32 begins here on 32-bit platforms. We keep
* all fields in a single cacheline that are needed for
* the goodness() loop in schedule().
*/ long counter; //进程可运行的时间量
long nice; //进程的基本时间片
unsigned long policy; //进程的调度策略,有三种,实时进程:SCHED_FIFO,SCHED_RR;分时进程:SCHED_OTHER;
struct mm_struct *mm; //进程内存管理信息
int processor;
/* * cpus_runnable is ~0 if the process is not running on any
* CPU. It's (1 << cpu) if it's running on a CPU. This mask
* is updated under the runqueue lock.
* * To determine whether a process might run on a CPU, this
* mask is AND-ed with cpus_allowed.
* 若进程不在任何CPU上运行,cpus_runnable 的值是0,否则是1。这个值在运行 *队列被锁时更新;*/
unsigned long cpus_runnable, cpus_allowed;
/* * (only the 'next' pointer fits into the cacheline, but
* that's just fine.)
*/
struct list_head run_list; //指向运行队列的指针
unsigned long sleep_time; //进程的睡眠时间
struct task_struct *next_task, *prev_task; //用于将系统中所有的进程连成一个双向循环链表,其根是init_task.
struct mm_struct *active_mm;
struct list_head local_pages; //指向本地页面
unsigned int allocation_order, nr_local_pages;
/* task state */
struct linux_binfmt *binfmt; //进程所运行的可执行文件的格式
int exit_code, exit_signal;
int pdeath_signal; /* The signal sent when the parent dies *///父进程终止是向子进程发送的信号
/* ??? */
unsigned long personality; //Linux可以运行由其他UNIX操作系统生成的符合iBCS2标准的程序
int did_exec:1; //按POSIX要求设计的布尔量,区分进程正在执行从父进程中继承的代码,还是执行由execve装入的新程序代码
pid_t pid; //进程标识符,用来代表一个进程
pid_t pgrp; //进程组标识,表示进程所属的进程组
pid_t tty_old_pgrp; //进程控制终端所在的组标识
pid_t session; //进程的会话标识
pid_t tgid;
/* boolean value for session group leader */
int leader; //标志,表示进程是否为会话主管
/*
* pointers to (original) parent process, youngest child, younger sibling,
* older sibling, respectively. (p->father can be replaced with
* p->p_pptr->pid)
*///指针指向(原始的)父进程,孩子进程,比自己年轻的兄弟进程,比自己年长的兄弟进程
//(p->father能被p->p_pptr->pid代替)
struct task_struct *p_opptr, *p_pptr, *p_cptr, *p_ysptr, *p_osptr;
struct list_head thread_group; //线程链表
/* PID hash table linkage. *///进程散列表指针
struct task_struct *pidhash_next; //用于将进程链入HASH表pidhash
struct task_struct **pidhash_pprev;
wait_queue_head_t wait_chldexit; /* for wait4() *///wait4()使用
struct completion *vfork_done; /* for vfork() */// vfork() 使用
unsigned long rt_priority; //实时优先级,用它计算实时进程调度时的weight值
//it_real_value,it_real_incr用于REAL定时器,单位为jiffies。系统根据it_real_value //设置定时器的第一个终止时间。在定时器到期时,向进程发送SIGALRM信号,同时根据it_real_incr重置终止时间
//it_prof_value,it_prof_incr用于Profile定时器,单位为jiffies。当进程运行时,不管在何种状态下,每个tick都使
//it_prof_value值减一,当减到0时,向进程发送信号SIGPROF,并根据it_prof_incr重置时间
//it_virt_value,it_virt_value用于Virtual定时器,单位为jiffies。当进程运行时,不管在何种状态下,每个tick都使
//it_virt_value值减一,当减到0时,向进程发送信号SIGVTALRM,根据it_virt_incr重置初值。
//Real定时器根据系统时间实时更新,不管进程是否在运行
//Virtual定时器只在进程运行时,根据进程在用户态消耗的时间更新
//Profile定时器在进程运行时,根据进程消耗的时(不管在用户态还是内核态)更新
unsigned long it_real_value, it_prof_value, it_virt_value;
unsigned long it_real_incr, it_prof_incr, it_virt_value;
struct timer_list real_timer;//指向实时定时器的指针
struct tms times; //记录进程消耗的时间,
unsigned long start_time;//进程创建的时间
long per_cpu_utime[NR_CPUS], per_cpu_stime[NR_CPUS]; //记录进程在每个CPU上所消耗的用户态时间和核心态时间
/* mm fault and swap info: this can arguably be seen as either mm-specific or thread-specific */
//内存缺页和交换信息:
//min_flt, maj_flt累计进程的次缺页数(Copy on Write页和匿名页)和主缺页数(从映射文件或交换设备读入的页面数);
//nswap记录进程累计换出的页面数,即写到交换设备上的页面数。
//cmin_flt, cmaj_flt, cnswap记录本进程为祖先的所有子孙进程的累计次缺页数,主缺页数和换出页面数。在父进程
//回收终止的子进程时,父进程会将子进程的这些信息累计到自己结构的这些域中
unsigned long min_flt, maj_flt, nswap, cmin_flt, cmaj_flt, cnswap;
int swappable:1; //表示进程的虚拟地址空间是否允许换出
/* process credentials *////进程认证信息
//uid,gid为运行该进程的用户的用户标识符和组标识符,通常是进程创建者的uid,gid //euid,egid为有效uid,gid
//fsuid,fsgid为文件系统uid,gid,这两个ID号通常与有效uid,gid相等,在检查对于文件系统的访问权限时使用他们。
//suid,sgid为备份uid,gid
uid_t uid,euid,suid,fsuid;
gid_t gid,egid,sgid,fsgid;
int ngroups; //记录进程在多少个用户组中
gid_t groups[NGROUPS]; //记录进程所在的组
kernel_cap_t cap_effective, cap_inheritable, cap_permitted;//进程的权能,分别是有效位集合,继承位集合,允许位集合
int keep_capabilities:1;
struct user_struct *user;
/* limits */
struct rlimit rlim[RLIM_NLIMITS]; //与进程相关的资源限制信息
unsigned short used_math; //是否使用FPU
char comm[16]; //进程正在运行的可执行文件名
/* file system info *///文件系统信息
int link_count, total_link_count;
struct tty_struct *tty; /* NULL if no tty 进程所在的控制终端,如果不需要控制终端,则该指针为空*/
unsigned int locks; /* How many file locks are being held */
/* ipc stuff *///进程间通信信息
struct sem_undo *semundo; //进程在信号灯上的所有undo操作
struct sem_queue *semsleeping; //当进程因为信号灯操作而挂起时,他在该队列中记录等待的操作
/* CPU-specific state of this task *///进程的CPU状态,切换时,要保存到停止进程的
task_struct中
struct thread_struct thread;
/* filesystem information文件系统信息*/
struct fs_struct *fs;
/* open file information *///打开文件信息
struct files_struct *files;
/* signal handlers *///信号处理函数
spinlock_t sigmask_lock; /* Protects signal and blocked */
struct signal_struct *sig; //信号处理函数,
sigset_t blocked; //进程当前要阻塞的信号,每个信号对应一位
struct sigpending pending; //进程上是否有待处理的信号
unsigned long sas_ss_sp;
size_t sas_ss_size;
int (*notifier)(void *priv);
void *notifier_data;
sigset_t *notifier_mask;
/* Thread group tracking */
u32 parent_exec_id;
u32 self_exec_id;
/* Protection of (de-)allocation: mm, files, fs, tty */
spinlock_t alloc_lock;
/* journalling filesystem info */
void *journal_info;
};
进程描述符(Process Descriptor),顾名思义,就是进程的描述,即用来描述进程的数据结构,可以理解为进程的属性。比如进程的状态、进程的标识(PID)等,都被封装在了进程描述符这个数据结构中,该数据结构被定义为task_struct。
进程状态
Linux中的进程有7种状态,进程的task_struct结构的state字段指明了该进程的状态。
可运行状态(TASK_RUNNING)
可中断的等待(TASK_INTERRUPTIBLE)
不可中断的等待(TASK_UNINTERRUPTIBLE)
暂停状态(TASK_STOPPED)
跟踪状态(TASK_TRACED):进程被调试器暂停或监视。
僵死状态(EXIT_ZOMBIE):进程被终止,但父进程未调用wait类系统调用。
僵死撤销状态(TASK_DEAD):父进程发起wait类系统调用,进程由系统删除。
标识一个进程
标识进程的两种方法:进程描述符地址、PID。PID的值保存在task_struct结构的pid字段中。
能够被独立调度的执行上下文都有自己的进程描述符,因此,轻量级进程(LWP)也有自己的task_struct结构。
Linux把不同的PID分配给每个进程和LWP(类似地,Windows中也是将PID和TID分配给每个进程和线程,且PID和TID不会相同,注,这里Linux中的LWP类似于Windows中的线程)。
Linux中还有线程组的概念,一个线程组的所有线程使用该线程组领头线程的PID,即该组中第一个LWP的PID。这个线程组的PID保存在task_struct结构的tpid字段中,线程组领头线程的tpid和pid的值相同。
得到进程描述符地址
Linux中,有2个数据结构被紧凑地放在了一起:进程的内核堆栈,thread_info(线程描述符)。一般地,这两个数据结构大小为8192个字节,放在两个连续的页面中,首地址为213的倍数。8KB对于内核堆栈和thread_info来说已经足够了(也可以在编译内核时设置,让这两个数据结构占用一个页面)。这个8KB的起始存放thread_info结构,内核堆栈从末端向下增长。在thread_info结构中,有一个指向进程描述符的指针task,利用该指针可以找到task_struct结构地址。在task_struct结构中,也有一个thread_info指针,指向thread_info结构。
因为thread_info和内核堆栈被紧凑地存放在一起,因此,可以从内核堆栈找到thread_info结构地址,继而通过thread_info结构的task指针找到task_struct结构指针。对于8KB而言,得到esp中的值,然后将该值与上0xffffe000,即将低13位清零,就得到了thread_info的地址,然后就可以得到task_struct的地址。
进程链表
Linux中将多个进程组织成循环双链表的结构,进程链表头是init_task描述符,即0进程或swapper进程的描述符。通过task_struct结构中tasks字段,将多个进程连接成链表的结构。
早期的Linux版本中,把所有TASK_RUNNING状态的进程放在一个运行队列中,这样,按照优先级排序该链表的开销比较大,早期的调度程序不得不遍历整个链表来选择最佳的进程。
Linux 2.6中的运行队列不同,系统中建立了多个可运行进程链表,即运行队列中包含多个可运行进程链表。每个可运行进程链表对应一个优先级,优先级取值为0~139。假定某个进程优先级为k,那么该进程的task_struct结构中run_list字段就将其连接到优先级为k的可运行进程链表中。另外,在多处理器系统中,每个CPU都有它自己的运行队列。这么多可运行进程链表由prio_array_t数据结构来管理。
进程间关系
进程之间有父子关系,如果一个进程创建多个子进程,那这些子进程之间就有了兄弟关系。Linux中,进程0和进程1由内核创建,进程1(init)是其他所有进程的祖先。
在进程描述符表task_struct结构中,以下字段表示进程间的关系:
real_parent:指向创建进程P的进程的描述符,如果P的父进程不存在,就指向进程1的描述符。
parent:指向P的当前父进程,往往与real_parent一致。当出现Q进程向P发出跟踪调试ptrace()系统调用时,该字段指向Q进程描述符。
children:一个链表头,链表中所有元素都是进程P创建的子进程。
sibling:指向兄弟进程链表的下一个元素或前一个元素的指针。
另外,进程间还存在其他关系:登录会话关系、进程组关系、线程组关系、跟踪调试关系。
在task_struct结构中,以下字段表示这些关系(假设当前进程为P):
group_leader:P所在进程组的领头进程的描述符指针
signal->pgrp:P所在进程组的领头进程的PID
tgid:P所在线程组的领头进程的PID
signal->session:P所在登录会话领头进程的PID
ptrace_children:一个链表头,链表中的所有元素是被调试器程序跟踪的P的子进程
ptrace_list:当P被调试跟踪时,指向调试跟踪进程的父进程链表的前一个和下一个元素
PID导出进程描述符
有些情况需要从PID得到响应的进程描述符指针,比如kill()系统调用。由于顺序扫描进程链表并检查进程描述符的pid字段是比较低效的,因此引入了4个哈希表:
PIDTYPE_PID
PIDTYPE_TGID
PIDTYPE_PGID
PIDTYPE_SID
这四个哈希表在内核初始化时动态地分配空间,它们的地址被存入pid_hash数组,其长度依赖于RAM容量。利用pid_hashfn可以将PID转化为表索引。
为了防止出现哈希运算带来的冲突,Linux采用拉链法来解决,即引入具有链表的哈希表来处理。
进程组织
运行队列的链表把TASK_RUNNING状态的所有进程组织在一起。对于其他状态的进程,Linux做如下处理:
TASK_STOPPED、EXIT_ZOMBIE、EXIT_DEAD状态的进程,Linux并没有为它们建立专门的链表,因为访问简单。
TASK_INTERRUPTIBLE、TASK_UNINTERRUPTIBLE状态的进程被分为很多类,每一类对应一个特定的事件。在这种状态下,进程状态无法提供足够的信息来快速的得到进程,因此引入额外的进程链表是必要的。这些链表称为“等待队列”。
等待队列的用途很多,比如中断处理、进程同步、定时等。
等待队列由双链表实现,每个等待队列都有一个队头,这是一个wait_queue_C�一个flags字段,决定了相关进程是互斥进程(flags = 1)还是非互斥进程(flags = 0)%6��保证等待队列被互斥的访问和操作。
等待队列中元素的类型是wait_queue_t,该数据结构中有一个task字段,是一个进程描述符的指针;有一个func字段,是一个函数指针,表示进程的如何唤醒(即唤醒时调用该函数);还有一个flags字段,决定了相关进程是互斥进程(flags = 1)还是非互斥进程(flags = 0)。
这里解释下互斥进程与非互斥进程。非互斥进程总是由内核在事件发生时唤醒;互斥进程则是由内核在事件发生时有选择地唤醒,比如访问临界区的进程。
进程资源限制
每个进程都有一组相关的资源限制,指明了进程能够使用的系统资源数量。避免进程过度使用系统资源(CPU、磁盘空间等)。
进程资源的限制存放在进程描述符的signal->rlim字段中,该字段是一个类型为rlimit结构的数组,数组中每个元素对应一种资源。
用getrlimit()和setrlimit()系统调用,用户能够增加当前资源限制的上限。
如果资源限制值为RLIMIT_INFINITY(0xffffffff),就意味着没有对应的资源限制。
总结
进程描述符(task_struct)某些字段含义,假设进程为P。
state:P进程状态,用set_task_state和set_current_state宏更改之,或直接赋值。
thread_info:指向thread_info结构的指针。
run_list:假设P状态为TASK_RUNNING,优先级为k,run_list将P连接到优先级为k的可运行进程链表中。
tasks:将P连接到进程链表中。
ptrace_children:链表头,链表中的所有元素是被调试器程序跟踪的P的子进程。
ptrace_list:P被调试时,链表中的所有元素是被调试器程序跟踪的P的子进程。
pid:P进程标识(PID)。
tgid:P所在的线程组的领头进程的PID。
real_parent:P的真实的父进程的进程描述符指针。
parent:P的父进程的进程描述符指针,当被调试时就是调试器进程的描述符指针。
children:P的子进程链表。
sibling:将P连接到P的兄弟进程链表。
group_leader:P所在的线程组的领头进程的描述符指针。