干货来啦~~~《深入理解计算机系统》第一章重要知识点（详解版）

最新推荐文章于 2025-01-06 16:42:36 发布

原创最新推荐文章于 2025-01-06 16:42:36 发布 · 699 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#操作系统 #linux #网络 #编程语言 #c语言

深入理解计算机系统专栏收录该内容

1 篇文章

订阅专栏

本文详细解析了源程序到可执行文件的过程，包括编译、链接，以及处理器如何解释内存指令。还介绍了操作系统如何管理硬件、进程、线程和虚拟内存，以及系统间的网络通信原理。

在这里插入图片描述
第一次看这种理论的书，非科班太难了，慢慢来，冲冲冲！！！！

文章目录

1. 源程序文件到可执行文件过程

hello程序的生命周期是从一个高级C语言程序开始的，因为这种形式能够被人读懂。然而，为了在系统上运行 hello.c程序，每条C语句都必须被其他程序转化为一系列的低级机器语言指令。然后这些指令按照一种称为可执行目标程序的格式打好包，并以二进制磁盘文件的形式存放起来。目标程序也称为可执行目标文件。

在Unix系统上，从源文件到目标文件的转化是由编译器驱动程序完成的:linux> gcc -o hello hello.c

在这里，GCC编译器驱动程序读取源程序文件 hello.c，并把它翻译成一个可执行目标文件 hello。这个翻译过程可分为四个阶段完成，执行这四个阶段的程序(预处理器、编译器、汇编器和链接器)一起构成了编译系统(compilation system)。将 c 语言逐步翻译成汇编语言，再翻译成机器语言。

下图是hello.c 的编译过程
编译系统
预处理：根据 .c 文本中以 # 开头的命令修改原始 hello.c ，并生成 hello.i 文件。

编译：将 hello.i 翻译成汇编语言代码 hello.s 。

汇编：将汇编语言代码 hello.s 翻译成机器语言指令，打包成一个可重定位目标程序 hello.o 。

链接：将多个 .o 文件链接成可执行文件 hello ，例如 hello.c 中使用了库函数 printf ，而 printf 存在一个名为 printf.o 的目标文件中，链接就是将这些如 hello.o 、printf.o 以 .o 结尾的目标文件合并成可执行文件 hello 。

2. 处理器读并解释内存中的指令

此刻，hello.c源程序已经被编译系统翻译成了可执行目标文件 hello，并被存放在磁盘上。要想在Unix系统上运行该可执行文件，在终端输入./hello。

shell是一个命令行解释器，它输出一个提示符，等待输人一个命令行，然后执行这个命令。如果该命令行的第一个单词不是一个内置的shell命令，那么shell就会假设这是一个可执行文件的名字，它将加载并运行这个文件。所以在此例中，shell将加载并运行hello程序，然后等待程序终止。hello程序在屏幕上输出它的消息，然后终止。shell随后输出一个提示符，等待下一个输入的命令行。

1）系统的硬件组成

计算机硬件由总线、I/O设备、主存、处理器四个主要部分组成。

总线：贯穿整个系统的是一组电子管道，称作总线，它携带信息字节并负责在各个部件间传递。通常总线被设计成传送定长的字节块，也就是字( word)。字中的字节数(即字长)是一个基本的系统参数，各个系统中都不尽相同。现在的大多数机器字长，在32位机中一个字4个字节（4 * 8 = 32位），在64位机中一个字8个字节（8 * 8 = 64位）。

I/O设备：是系统与外部世界的联系通道，鼠标、键盘、显示器、一起磁盘都是I/O设备。

主存：就是常说的运行内存，是一个临时存储设备，在处理器执行程序时，用来存放程序和程序处理的数据。由一组动态随机存储器(DRAM)组成。在主存中程序运行时变量的数据大小是根据类型变换的。比如在运行 linux 的 x86-64 机器上，short 类型2个字节、int 和 float 类型四个字节，而 long 和 double 则需8个字节。

处理器：中央处理单元(CPU)，简称处理器，是解释(或执行)存储在主存中指令的引擎。处理器主要由程序计数器PC和算术/逻辑单元ALU还有寄存器组成。处理器的核心是一个大小为一个字的存储设备(或寄存器)，称为程序计数器(PC)。在任何时刻，PC都指向主存中的某条机器语言指令(即含有该条指令的地址)。

CPU在指令的要求下可能会执行这些操作。

加载：从主存复制一个字节或者一个字到寄存器，以覆盖寄存器原来的内容。
存储：从寄存器复制一个字节或者一个字到主存的某个位置，以覆盖这个位置上原来的内容。
操作：把两个寄存器的内容复制到ALU，ALU对这两个字做算术运算，并将结果存放到一个寄存器中，以覆盖该寄存器中原来的内容。
跳转：从指令本身中抽取一个字，并将这个字复制到程序计数器(PC)中，以覆盖PC中原来的值。

2）程序是如何运行的

初始时，shell程序执行它的指令，等待我们输入一个命令。当我们在键盘上输入字串“./hello”后，shell程序将字符逐一读入寄存器，再把它存放到内存中，如图所示。

在这里插入图片描述
当我们在键盘上敲回车键时，shell程序就知道我们已经结束了命令的输人。然后shell执行一系列指令来加载可执行的 hello文件，这些指令将hello目标文件中的代码和数据从磁盘复制到主存。数据包括最终会被输出的字符串“hello, world\n”。

利用直接存储器存取技术，数据可以不通过处理器而直接从磁盘到达主存。这个步骤如图所示。
在这里插入图片描述
一旦目标文件 hello中的代码和数据被加载到主存，处理器就开始执行hello程序的main程序中的机器语言指令。这些指令将“hello, world\n”字符串中的字节从主存复制到寄存器文件，再从寄存器文件中复制到显示设备，最终显示在屏幕上。这个步骤如图所示。
在这里插入图片描述

3. 操作系统管理硬件

当shell 加载和运行hello程序时，以及hello程序输出自己的消息时，shell和 hello程序都没有直接访问键盘、显示器、磁盘或者主存。取而代之的是，它们依靠操作系统提供的服务。可以把操作系统看成是应用程序和硬件之间插入的一层软件，如图所示。所有应用程序对硬件的操作尝试都必须通过操作系统。
在这里插入图片描述
操作系统有两个基本功能：

(1)防止硬件被失控的应用程序滥用；

(2)向应用程序提供简单一致的机制来控制复杂而又通常大不相同的低级硬件设备。

操作系统通过几个基本的抽象概念(进程、虚拟内存和文件)来实现这两个功能。

文件是对I/O设备的抽象表示，虚拟内存是对主存和磁盘I/О设备的抽象表示，进程则是对处理器、主存和I/O设备的抽象表示。（三个抽象:文件是对I/О设备的抽象，虚拟内存是对程序存储器的抽象，而进程是对一个正在运行的程序的抽象。再增加一个新的抽象：虚拟机，它提供对整个计算机的抽象，包括操作系统、处理器和程序。）

进程

进程是操作系统对一个正在运行的程序的一种抽象。在一个系统上可以同时运行多个进程，而每个进程都好像在独占地使用硬件。而并发运行，则是说一个进程的指令和另一个进程的指令是交错执行的。在大多数系统中，需要运行的进程数是多于可以运行它们的CPU个数的。传统系统在一个时刻只能执行一个程序，而先进的多核处理器同时能够执行多个程序。无论是在单核还是多核系统中，一个CPU看上去都像是在并发地执行多个进程，这是通过处理器在进程间切换来实现的。操作系统实现这种交错执行的机制称为上下文切换。

操作系统保持跟踪进程运行所需的所有状态信息。这种状态，也就是上下文，包括许多信息，比如PC和寄存器文件的当前值，以及主存的内容。在任何一个时刻，单处理器系统都只能执行一个进程的代码。当操作系统决定要把控制权从当前进程转移到某个新进程时，就会进行上下文切换，即保存当前进程的上下文、恢复新进程的上下文，然后将控制权传递到新进程。新进程就会从它上次停止的地方开始。

从一个进程到另一个进程的转换是由**操作系统内核(kernel)**管理的。内核是操作系统代码常驻主存的部分。当应用程序需要操作系统的某些操作时，比如读写文件，它就执行一条特殊的系统调用指令，将控制权传递给内核。然后内核执行被请求的操作并返回应用程序。注意，内核不是一个独立的进程。相反，它是系统管理全部进程所用代码和数据结构的集合。

线程

在现代系统中，一个进程实际上可以由多个称为线程的执行单元组成，每个线程都运行在进程的上下文中，并共享同样的代码和全局数据。

由于网络服务器中对并行处理的需求，线程成为越来越重要的编程模型，因为多线程之间比多进程之间更容易共享数据，也因为线程一般来说都比进程更高效。当有多处理器可用的时候，多线程也是一种使得程序可以运行得更快的方法。

虚拟内存

一个抽象概念，它为每个进程提供了一个假象，即每个进程在独占的使用主存。每个进程看到的内存都是一样的，称为虚拟地址空间。

在Linux中，虚拟地址空间的模型如下：
在这里插入图片描述

在Linux 中，地址空间最上面的区域是保留给操作系统中的代码和数据的，这对所有进程来说都是一样。地址空间的底部区域存放用户进程定义的代码和数据。请注意，图中的地址是从下往上增大的。

每个进程看到的虚拟地址空间由大量准确定义的区构成，每个区都有专门的功能。

**程序代码和数据。**对所有的进程来说，代码是从同一固定地址开始，紧接着的是和C全局变量相对应的数据位置。代码和数据区是直接按照可执行目标文件的内容初始化的，在示例中就是可执行文件 hello。
堆。代码和数据区后紧随着的是运行时堆。代码和数据区在进程一开始运行时就被指定了大小，与此不同，当调用像malloc和free这样的C标准库函数时，堆可以在运行时动态地扩展和收缩。
**共享库。**大约在地址空间的中间部分是一块用来存放像C标准库和数学库这样的共享库的代码和数据的区域。
**栈。**位于用户虚拟地址空间顶部的是用户栈，编译器用它来实现函数调用。和堆一样，用户栈在程序执行期间可以动态地扩展和收缩。特别地，每次我们调用一个函数时，栈就会增长；从一个函数返回时，栈就会收缩。
**内核虚拟内存。**地址空间顶部的区域是为内核保留的。不允许应用程序读写这个区域的内容或者直接调用内核代码定义的函数。相反，它们必须调用内核来执行这些操作。

文件

文件就是字节序列，仅此而已。每个I/O设备，包括磁盘、键盘、显示器，甚至网络，都可以看成是文件。系统中的所有输入输出都是通过使用一小组称为Unix I/O的系统函数调用读写文件来实现的。

文件这个简单而精致的概念是非常强大的，因为它向应用程序提供了一个统一的视图，来看待系统中可能含有的所有各式各样的I/О设备。例如，处理磁盘文件内容的应用程序员可以非常幸福，因为他们无须了解具体的磁盘技术。进一步说，同一个程序可以在使用不同磁盘技术的不同系统上运行。

4. 系统之间如何利用网络通信

现代系统经常通过网络和其他系统连接到一起。从一个单独的系统来看，网络可视为一个I/O设备，如图所示。当系统从主存复制一串字节到网络适配器时，数据流经过网络到达另一台机器，而不是比如说到达本地磁盘驱动器。相似地，系统可以读取从其他机器发送来的数据，并把数据复制到自己的主存。
在这里插入图片描述

随着Internet这样的全球网络的出现，从一台主机复制信息到另外一台主机已经成为计算机系统最重要的用途之一。比如，像电子邮件、即时通信、万维网、FTP和 telnet这样的应用都是基于网络复制信息的功能。

以hello示例，使用熟悉的telnet应用在一个远程主机上运行hello程序。假设用本地主机上的telnet客户端连接远程主机上的telnet服务器。在我们登录到远程主机并运行shell后，远端的shell就在等待接收输入命令。此后在远端运行hello程序包括如图所示的五个基本步骤。

在这里插入图片描述
当我们在telnet客户端键入“hello”字符串并敲下回车键后，客户端软件就会将这个字符串发送到telnet的服务器。telnet服务器从网络上接收到这个字符串后，会把它传递给远端shell程序。接下来，远端shell 运行hello程序，并将输出行返回给telnet服务器。最后，telnet服务器通过网络把输出串转发给telnet客户端，客户端就将输出串输出到我们的本地终端上。这种客户端和服务器之间交互的类型在所有的网络应用中是非常典型的。