Linux 2.6内核笔记【Process-3:fork、内核进程】

本文详细介绍了Linux中进程和线程的创建过程,包括fork(), vfork(), clone()等函数的工作原理及其与系统调用的关系。同时,探讨了内核线程的概念及其在系统中的作用。
部署运行你感兴趣的模型镜像

Utensil按:

 

最后的几篇Linux内核笔记实在是太难产了,这中途读完了APUE,并以JavaEye闲聊的形式做了无数细小的笔记(不日将整理为博客);也第3次(还是第4次?)阅读了《ACE程序员指南》,不过这一次终于做下了笔记;也看完了Programming Erlang,用Erlang来写基于UDP的TCP的ErlyUbt已经渐渐现出眉目,也已push到了GitHub上面。可惜就是这段时间的该做的正事却没什么进展...

 

《Understanding Linux Kernel》在18号必须还给图书馆了...在这两天电脑坏了的日子里,第3次读了即将做笔记的中断与异常、内核同步、时间测量,其余的章节也略读完毕,这些章节希望能够写成一些细小的闲聊。预期电脑应该在今晚恢复正常,在这之前,我来到图书馆,开始写作这酝酿已久的笔记。 第一篇,是对Process的一个收尾。

 

Process的终止 

这不是本笔记关注的重点,只记下以下一点:

 

C库函数exit()调用exit_group()系统调用(做事的是do_group_exit()),这会终止整个线程组,而exit_group()会调用exit()系统调用(做事的是do_exit())来终止一个指定的线程。 

 

Process的诞生 

POSIX里,创建process需要fork(),古老的fork()是很汗的,它会完整复制父进程的所有资源。Linux则将fork细分为下面三种情况:

 

如果是fork一个正常进程,那么就用Copy-on-Write(CoW)技术,子进程先用着父进程的所有页,它企图修改某一页时,再复制那一页给它去改;

 

如果要的是线程(轻量级进程),那么就是大家共同享有原先那些资源,大家一条船;

 

还有就是vfork()所代表的情况:子进程创建出来后,父进程阻塞,这样老虎不在家,猴子当大王,子进程继续用原先的地址空间,直到它终止,或者执行新的程序,父进程就结束阻塞。

 

一个关于系统调用的准备知识:系统调用xyz()的函数名往往为sys_xyz(),下文对系统调用仅以sys_xyz()的形态表达。

 

clone()界面 

在Linux里,创建进程的总的界面是clone(),这个函数并没有定义在Linux内核源代码中,而是libc的一部分,它负责建立新进程的stack并调用sys_clone()。而sys_clone()里面实际干活的是do_fork(),而do_fork()做了许多前前后后的琐事,真正复制进程描述符和相关数据结构的是copy_process()。

 

clone()是这个样子的:clone(fn, arg, flags, child_stack, 其它我们不关心的参数)。

 

fn是新进程应执行的函数, arg是这个函数的参数。

 

flags的低字节指定新进程结束时发送给老进程的信号,通常为SIGCHLD,高字节则为clone_flag,clone_flag很重要,它决定了clone的行为。有趣的一些clone_flag包括(这些flag定义于<linux/ include/ linux/ sched.h >):

 

CLONE_VM(Virtual Memory):新老进程共享memory descriptor和所有Page Table;

CLONE_FS(File System);

CLONE_FILES;

CLONE_SIGHAND(Signal Handling):新老进程共享信号描述符(signal handler和现已blocked/pending的信号队列);

CLONE_PTRACE:用于Debugging;

CLONE_PARENT:老进程的real_parent登记为新进程的parent和real_parent;

CLONE_THREAD:新进程加入老进程的线程组;

CLONE_STOPPED:创建你,但你别运行。

 

child_stack则是新进程用户态stack的地址,要么共享老进程的,要么老进程应为新进程分配新的stack。

 

do_fork()探究  

书中说:fork()和vfork()只不过是建立在调用clone()基础上的wrapper函数(也在libc中),实际上:

 

asmlinkage int sys_fork(struct pt_regs regs)
{
        return do_fork(SIGCHLD, regs.esp, &regs, 0, NULL, NULL);
}

asmlinkage int sys_clone(struct pt_regs regs)
{
        /* 略去用于把regs拆开成可以传递给do_fork的参数的代码 */
        return do_fork(clone_flags, newsp, &regs, 0, parent_tidptr, child_tidptr);
}

asmlinkage int sys_vfork(struct pt_regs regs)
{
        return do_fork(CLONE_VFORK | CLONE_VM | SIGCHLD, regs.esp, &regs, 0, NULL, NULL);
}

 

我一开始猜想,fork()和vfork()直接呼唤sys_fork()和sys_vfork()应该也没什么问题,但是,注意到这三个系统调用都只接受pt_regs这样仅包含寄存器的参数,显然clone()的工作中主要的部分是把它自身接受的参数转换成寄存器的值,事实上,clone还需要将fn和args压入stack,因为do_fork()是这样子的:

 

do_fork(clone_flags, stack_start, regs, 一些我们不关心的参数)

 

也就是说do_fork不了解也不需要知道fn和args,它做完fork之后,在某个return处,类似于之前在process切换用过的技巧(jmp+ret)将使CPU从stack中获取返回地址,并错误而正确地拿到了fn的地址。这正是clone()这个wrapper要做的事情,fork()和vfork()不妨复用clone()的辛苦。

 

do_fork()调用完copy_process之后,除非你指定CLONE_STOPPED,就会呼唤wake_up_new_task(),这里面有一点很有趣:

 

如果新老进程在同一CPU上运行,而且没有指定CLONE_VM(也就是终究要分家,要动用CoW),那么就会让新进程先于老进程运行,这样,如果新进程一上来就exec,就省去了CoW的功夫。

 

这是因为exec内部会调用flush_old_exec(),从与老进程的共享中中脱离,从此拥有自己的信号描述符、文件,释放了原先的mmap,消灭了对老进程的所有知识——这正是为什么成功执行的exec不会返回也无法返回。总之,此后再也没有共享,自然也不会需要CoW。(参见《Program Execution》一章《exec function》中的介绍。)

 

内核进程(Kernel thread) 

什么是书中所说的“内核线程”?首先要说明,由于Linux内核中对process和thread的混用,这里的thread其实完全可以理解为process,等价于普通的进程,不能理解为老进程中的一个属于内核的线程。因此,下文都称之为内核进程。

 

内核进程是会和其他进城一样被调度的实体,它和进程的唯一区别就是,它永远运行于内核态,也只访问属于内核的那一部分线性地址(大于PAGE_OFFSET的)。

 

这就使得创建它的时候非常省事,直接和创建它的普通进程共享小于PAGE_OFFSE的线性地址,反正它也不用:

 

int kernel_thread(int (*fn)(void *), void * arg, unsigned long flags)
{
        /* 略去用于设置regs的代码 */
        return do_fork(flags | CLONE_VM | CLONE_UNTRACED, 0, &regs, 0, NULL, NULL);
}

 <linux/ include/ linux/ sched.h >中甚至定义了

 

#define CLONE_KERNEL     (CLONE_FS | CLONE_FILES | CLONE_SIGHAND )

 


可供kernel_thread()调用的时候使用,这样节省的克隆就更多了。

 

内核进程由于不受不必要的用户态上下文拖累,可以用于执行一些重要的内核任务,比如,刷新磁盘高速缓存,交换出不用的pageframe,服务网络连接等等,这些任务以前是周期性执行的进程,是线性的执行方式,现在的内核把用户态从他们身上剥离,并且和其它进程放到一起来调度,能获得更好的响应表现。

 

所有进程的祖先是进程0,称为idle进程或swapper进程,它是内核初始化时创建的一个内核进程,它初始化一堆数据结构之后会创建init进程,执行init()函数,其中调用exec执行了init程序,至此,init进程变成了一个普通进程。而idle进程之后则一直执行cpu_idle()函数没事干。调度程序只有在没有进程处于可运行状态(TASK_RUNNING)才会选择它。

 

如果有多个CPU,BIOS一开始会禁用其它CPU,只留一个,进程0就在其上诞生,它会激活其它CPU,并通过copy_process让每个CPU都有一个pid为0的进程,从而形成了每个CPU都有一个0进程的局面。

您可能感兴趣的与本文相关的镜像

Stable-Diffusion-3.5

Stable-Diffusion-3.5

图片生成
Stable-Diffusion

Stable Diffusion 3.5 (SD 3.5) 是由 Stability AI 推出的新一代文本到图像生成模型,相比 3.0 版本,它提升了图像质量、运行速度和硬件效率

### ### 错误原因分析 在 Linux 系统中,当执行命令时出现 `fork: retry: No child processes` 错误,通常表示系统无法创建新的子进程。该问题的核心在于 `fork()` 调用失败,而失败的原因通常是由于系统资源不足或限制机制触发。 根据 fork 的行为描述,它会尝试创建一个当前进程的副本,并在成功时返回子进程的 PID 给父进程,而在失败时返回 -1 并设置相应的错误码(如 `EAGAIN` 或 `ENOMEM`)[^1]。这表明即使没有达到用户级的进程数限制,也可能是由于其他资源耗尽导致 fork 失败。 --- ### ### 常见原因及解决方案 #### 1. **系统整体 PID 表已满** Linux 系统默认的最大 PID 数量是有限的(通常为 32768)。如果系统中已有大量活跃进程,包括内核线程、服务进程和用户进程,可能导致 PID 分配完毕,从而阻止新进程的创建。 - 修改 `/proc/sys/kernel/pid_max` 可以提升系统支持的最大 PID 数量: ```bash echo 65535 > /proc/sys/kernel/pid_max ``` 要使更改永久生效,需将以下配置写入 `/etc/sysctl.conf` 文件: ``` kernel.pid_max = 65535 ``` 然后运行 `sysctl -p` 使其生效。 #### 2. **容器环境中的 PID 限制** 在 Docker 容器环境中,默认对 PID 的使用有严格限制(例如通过 `--pids-limit` 控制)。如果容器内的进程数量接近上限,也会导致 fork 失败。 - 启动容器时可以通过增加 PID 限制来缓解这一问题: ```bash docker run --pids-limit=65535 ... ``` 此方式可避免因 PID 表满而导致的 fork 操作失败问题。 #### 3. **内存或交换空间不足** `fork()` 创建新进程时需要复制父进程的地址空间,因此需要足够的物理内存和交换空间。如果系统内存紧张,尤其是虚拟内存不足,也可能导致 fork 失败。 - 使用以下命令检查内存状态: ```bash free -m ``` - 查看内核日志以确认是否发生 OOM(Out of Memory)事件: ```bash dmesg | tail ``` 若发现内存不足问题,应考虑优化应用程序内存使用或增加系统可用内存。 #### 4. **文件描述符与网络连接耗尽** 虽然不直接涉及进程创建,但大量的打开文件或网络连接可能会间接影响系统资源分配,特别是在高并发场景下。可以使用 `lsof` 工具查看系统当前的文件描述符使用情况: ```bash lsof | wc -l ``` 同时检查 ulimit 设置: ```bash ulimit -n ``` 确保其值足够应对当前负载。 #### 5. **信号处理不当导致子进程回收延迟** 尽管排除了僵尸进程的问题,但如果父进程未能正确等待子进程退出,仍可能导致短时间内大量子进程处于不可控状态,进而影响后续的 fork 操作。 - 在程序中注册 `SIGCHLD` 信号处理函数,或使用 `waitpid()` 实现异步回收机制,有助于及时清理已完成的子进程[^2]。 --- ### ### 监控与预防措施 为了持续监控系统的进程创建能力,可以编写脚本定期检查僵尸进程并记录异常情况: ```bash while true; do clear ps aux | grep defunct sleep 0.5 done ``` 此外,结合 `cron` 定期执行清理任务,防止系统长时间处于高负载状态。 --- ###
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值