文章目录
☀️一、深入理解页表
知识点1
- 地址空间(task_struct)是进程能看到的资源窗口。
- 页表决定进程真正拥有的资源情况。
- 合理的对地址空间+页表进行资源划分,我们就可以对一个进程的所有资源进行分类。
知识点2
- 磁盘的数据储存单元为
页帧
(4KB),物理内存被划分为一个一个数据页/页框
(4KB)进行管理,磁盘可以将数据加载到内存。 虚拟地址
需要用32位比特位来表示,设计者们有意的将其拆分为10、10、12的位数进行应用,方便对内存空间的映射。- 页表分为
页目录
、页表项
。 页目录
使用虚拟地址的前10位进行索引,指向不同的页表项。页表项
使用虚拟地址的中10位进行索引,指向不同物理内存中的页框的起始地址。操作系统
依据某一页框的起始地址,以虚拟地址后12位作为偏移量,找到该页框内某一具体物理地址。- 在读取或写入某个数据时,可直接根据数据大小,在某一具体物理地址直接向下读取即可。
- 页表根据需要进行创建,不发生映射关系时,对应的数据页表不创建,可大大减少资源占用。
☀️二、Linux线程概念
🌻1.什么是线程(重点)
⚡(1)线程的概念
- 在一个程序里的一个执行路线就叫做
线程(thread)
。更准确的定义是:线程是“一个进程内部的控制序列”。 - 一个进程至少有一个执行线程,可以有多个执行线程。
- 线程在进程内部运行,本质是在进程地址空间内运行,它拥有进程的一部分资源。
- 在Linux系统中,在CPU眼中,看到的PCB都要比传统的进程更加轻量化。
- 透过进程虚拟地址空间,可以看到进程的大部分资源,将进程资源合理分配给每个执行流,就形成了线程执行流。
- 在Linux下,每个线程共享一个地址空间,它们使用 task_strcut类型的数据结构对虚拟内存进行管理,进而对整个进程资源分配。
- 在window下,有为线程专门设计的数据结构(TCB)。
- Linux内核中有没有真正意义的线程呢?没有,Linux是用进程PCB来模拟线程的,是一套完全属于自己的线程方案。
- 站在CPU视角,每一个PCB,都可以将其称之为轻量级进程。
- Linux线程是CPU调度的基本单位,而进程是承担系统资源分配的基本单位。
- 进程用来申请整体资源,线程用来伸手向进程要资源。
- Linux没有真正意义上的线程 - Linux无法直接向外部提供线程的系统调用接口,而只能给我们提供创建轻量级进程的接口(
pthread库
接口)。 - 好处:简单,维护成本低 - 可靠高效(避免数据结构复杂化)。
⚡(2)线程库初识
- 我们可以通过调用用户级线程库(pthread库),让库帮我们访问对应的系统调用接口,创建
轻量级进程
,也就是我们Linux下的线程。 - 任何一款Linux操作系统都会默认携带这个
pthread库
,这种我们将其称之为原生线程库
。
mythread:mythread.cc
g++ -o $@ $^ -lpthread -std=c++11 //-lpthread - 使用pthread库
.PHONY:clean
clean:
rm -f mythread
- 多线程程序运行起来之后
LWP
:light weight process - 轻量级进程id。PID = LWP
,该线程为主线程。PID != LWP
,该线程为新线程。- CPU调度的时候,以LWP为标识符表示特定执行流。
- 创建一个线程 -> 创建PCB -> 把对应的代码分配给它(分配一个函数给它)
🌻2.线程的优点
- 创建一个新线程的代价要比创建一个新进程小得多。
- 与进程之间的切换相比,线程之间的切换需要操作系统做的工作要少很多。
- 线程占用的资源要比进程少很多。
- 能充分利用多处理器的可并行数量。
- 在等待慢速I/O操作结束的同时,程序可执行其他的计算任务。
- 计算密集型应用(加密、解密、算法),为了能在多处理器系统上运行,将计算分解到多个线程中实现。
- I/O密集型应用(外设、网络拉取),为了提高性能,将I/O操作重叠。线程可以同时等待不同的I/O操作。
重点:与进程之间的切换相比,线程之间的切换需要操作系统做的工作要少很多。1.进程:切换页表 & 虚拟空间地址 & 切换PCB & 切换上下文。2.线程:切换PCB & 切换上下文。
知识补充:CPU内部会集成一个硬件cache,它负责缓存常用的热点数据,当线程切换时,cache不用被切换,CPU/寄存器 可以直接从该集成硬件中直接读取数据。当进程切换时,cache需要被切换。
🌻3.线程的缺点
- 性能损失
一个很少被外部事件阻塞的计算密集型线程往往无法与共它线程共享同一个处理器。如果计算密集型线程的数量比可用的处理器多,那么可能会有较大的性能损失,这里的性能损失指的是增加了额外的同步和调度开销,而可用的资源不变。
- 健壮性/鲁棒性 降低(重点)
1.编写多线程需要更全面更深入的考虑,在一个多线程程序里,因时间分配上的细微偏差或者因共享了不该共享的变量而造成不良影响的可能性是很大的,换句话说线程之间是缺乏保护的。2.一个线程出异常,会影响其他线程,因为信号是发给进程整体的,同一个进程内的不同线程共享同一个PID。
- 缺乏访问控制
进程是访问控制的基本粒度,在一个线程中调用某些OS函数会对整个进程造成影响。
- 编程难度提高。
编写与调试一个多线程程序比单线程程序困难得多。
🌻4.线程异常(重点)
- 单个线程如果出现除零,野指针问题导致线程崩溃,进程也会随着崩溃。
- 线程是进程的执行分支,线程出异常,就类似进程出异常,进而触发信号机制,终止进程,进程终止,该进程内的所有线程也就随即退出。
多线程 不等于 多进程(父子进程)
,子进程崩溃不一定会影响父进程运行。
🌻5.线程用途
-
合理的使用多线程,能提高CPU密集型程序的执行效率。
-
合理的使用多线程,能提高IO密集型程序的用户体验(如生活中我们一边写代码一边下载开发工具,就是
多线程运行的一种表现)。
☀️三、Linux线程VS进程
🌻1.线程和进程
- 进程是资源分配的基本单位
- 线程是CPU调度的基本单位
- 线程共享进程数据,但也拥有自己的一部分数据:
线程ID,一组寄存器(上下文),栈,errno,信号屏蔽字,调度优先级
总结:线程一旦被创建,几乎所有资源都是被线程共享的。线程也有自己的私有资源,1.PCB属性私有;2.一定私有的上下文结构;3.每个线程都有自己独立的栈结构。
🌻2.线程共享
进程的多个线程共享同一地址空间,因此Text Segment
(代码段)、Data Segment
(数据段)都是共享的,如果定义一个函数,在各线程中都可以调用,如果定义一个全局变量,在各线程中都可以访问到,除此之外,各线程还共享以下进程资源和环境:
- 文件描述符表
- 每种信号的处理方式(SIG_ IGN、SIG_ DFL或者自定义的信号处理函数)
- 当前工作目录
- 用户id和组id
进程和线程的关系如下图:
☀️四、Linux线程控制
🌻1.POSIX线程库
- 与线程有关的函数构成了一个完整的系列,绝大多数函数的名字都是以
“pthread_”
打头的。 - 要使用这些函数库,要通过引入
头文件<pthread.h>
。 - 链接这些线程函数库时要使用编译器命令的
“-lpthread”
选项。
mythread:mythread.cc
g++ -o $@ $^ -lpthread -std=c++11 //-lpthread - 使用pthread库
.PHONY:clean
clean:
rm -f mythread
🌻2.创建线程
功能:创建一个新的线程
原型
int pthread_create(pthread_t *thread, const pthread_attr_t *attr, void *
(*start_routine)(void*), void *arg);
参数
thread:返回线程ID
attr:设置线程的属性,attr为NULL表示使用默认属性
start_routine:是个函数地址,线程启动后要执行的函数
arg:传给线程启动函数的参数
返回值:成功返回0;失败返回错误码
错误检查
- 传统的一些函数是,成功返回0,失败返回-1,并且对全局变量errno赋值以指示错误。
- pthreads函数出错时不会设置全局变量errno(而大部分其他POSIX函数会这样做&#x