计算机系统是由硬件和系统软件组成的。
1.1 信息就是位+上下文
文中通过hello.c的 ASCII文本表示引出一个基本思想:系统中所有的信息(磁盘文件、内存中的程序与数据、以及网络上传送的数据)都是一串比特表示的。区分这些数据类型的唯一方法就是我们读取到这些数据时的上下文信息。比如在不同的上下文中,一个同样的字节序列可能表示一个整数、浮点数、字符串或者机器指令。
C语言的起源
C语言是贝尔实验室的Dennis Ritchie于1969年~1973年间创建的。美国国家标准学会(American national standards institute,ANSI)在1989年颁布了ANSI C的标准,后来语言的标准化成了国际标准化组织(International Standards Organization,ISO)的责任。这些标准定义了C语言和一系列函数库,即所谓的C标准库。Kernighan和 Ritchie在他们的经典著作中描述了ANSI C,这本著作被人们满怀感情地称为“K8R”。用Ritchie的话来说,C语言是“古怪的、有缺陷的,但同时也是一个巨大的成功”。为什么会成功呢?
-
C语言与Unⅸ操作系统关系密切。
C从一开始就是作为一种用于Unix系统的程府语言开发出来的。大部分Unix内核(操作系统的核心部分),以及所有支撑工具和函数库都是用C语言编写的。20世纪70年代后期到80年代初期,Unix风行于高等院校,许多人开始接触C语言并喜欢上它。因为Unix几乎全部是用C编写的,它可以很方便地移植到新的机器上,这种特点为C和Unix赢得了更为广泛的支持。 -
C语言小而简单。
C语言的设计是由一个人而非一个协会掌控的,因此这是一个简洁明了、没有什么冗赘的设计。K&R这本书用大量的例子和练习描述了完整的C语言及其标准库,而全书不过261页。C语言的简单使它相对而言易于学习,也易于移植到不同的计算机上。 -
C语言是为实践目的设计的。C语言是设计用来实现Unix操作系统的。后来其他人发现能够用这门语言无障碍地编写他们想要的程序。
C语言是系统级编程的首选,同时它也非常适用于应用级程序的编写。然而,它也并非适用于所有的程序员和所有的情况。C语言的指针是造成程序员困惑和程序错误的一个常见原因。同时,C语言还缺乏对非常有用的抽象的显式支持,例如类、对象和异常,像C++和Java这样针对应用级程序的新程序语言解决了这些问题。
1.2 程序被其他程序翻译成不同的格式
hello 程序是从一个高级 C 语言程序开始的,这种形式能够被人读懂。然而,为了在系统上运行hello.c 程序,每条 C 语句都必须被其他程序转化位一系列的低级机器语言指令。然后将这些指令按照一种称为可执行目标程序的格式打好包,并以二进制磁盘文件的形式存存放起来。目标程序也称为可执行目标文件。
在类Unix系统上, 从源文件到目标文件的转换是由编译器驱动程序完成的:
gcc -o hello hello.c
在这里,gcc 编译器驱动程序读取源程序文件hello.c, 并把它翻译成一个可执行目标文件 hello 文件。这个翻译过程可分为四个阶段(预处理器、编译器、汇编器和链接器)一起构成了编译系统(compilation system)。
- 预处理阶段。预处理器(cpp)根据以字符 # 开头的命令,修改原始的 C 程序。比如 hello.c 中的第一行 #include <stdio.h>命令告诉预处理器读取系统头文件stdio.h的内容,并把它直接插入程序文本中,展开所有宏定义。结果得到了另一个 C 程序,通常是以 .i 作为文件扩展名。
gcc -E hello.c -o hello.i
- 编译阶段。编译器(ccl)将文本文件 hello.i 翻译成文本文件 hello.s ,它包含一个汇编语言程序。
gcc -S hello.i -o hello.s
- 汇编阶段。接下来,汇编器(as)将 hello.s 翻译成机器语言指令,把这些指令打包成一种叫做可重定位目标程序(relocatable object program)的格式,并将结果保存在目标文件 hello.o 中。
gcc -c hello.s -o hello.o
- 链接阶段。因为 hello 程序调用了 printf 函数,它是每个 C 编译器都提供的标准 C 库中的一个函数。 printf 函数存在一个名为 printf.o 的单独的预编译好了的目标文件中, 而这个文件必须以某种方式合并到我们的 hello.o 程序中。链接器(ld)就负责处理这种合并。结果就得到 hello 文件,它是一个可执行目标文件,可以被系统执行。
gcc -o hello hello.o
GNU项目
GCC是GNU(GNU是GNU’s Not Unix的缩写)项目开发出来的众多有用工具之。GNU项目是1984年由Richard Stallman发起的一个免税的慈善项目。该项目的目标非常宏大,就是开发出一个完整的类Unix的系统,其源代码能够不受限制地被修改和传播。GNU项目已经开发出了一个包含Unix操作系统的所有主要部件的环境,但内核除外,内核是由 Linux项目独立发展而来的。GNU环境包括 EMACS编辑器、GCC编译器、GDB调试器、汇编器、链接器、处理二进制文件的工具以及其他一些部件。GCC编译器已经发展到支持许多不同的语言,能够为许多不同的机器生成代码。支持的语言包括C、C++、 Fortran、Java、Pascal、面向对象C语言(Objective-C)和Ada。
GNU项目取得了非凡的成绩,但是却常常被忽略。现代开放源码运动(通常和Linux联系在一起)的思想起源是GNU项目中自由软件(free software)的概念。(此处的free为自由言论(free speech)中的“自由”之意,而非免费啤酒(free beer)中的“免费”之意。) 而且,Linux如此受欢迎在很大程度上还要归功于GNU工具,它们给Linux内核提供了环境。
1.3 了解编译系统如何工作是大有益处的
- 优化程序性能。现代编译器都是成熟的工具,通常可以生成很好的代码。作为程序员,我们无须为了写出高效的代码而去了解编译器的内部工作。但是,为了我们在编写 C 语言代码的时候能做出好的编码选择,我们确实需要了解一些机器代码以及编译器将不同的 C 语句转化为机器代码的方式。比如 一个 switch 语句是否总是比一些列的 if-else 语句更高效?一个函数开销有多大?while 循环比 for 循环更有效吗?指针引用比数组索引更有效吗? 为什么将循环求和的结果放到一个本地变量中, 会比将其放到一个通过引用传递过来的参数中,运行起来快很多呢?为什么我们只是简单地重新排列一下算术表达式中的括号就能让函数运行得更快?
- 理解链接时出现的错误。一些最令人困扰的程序错误往往都与连接器操作相关,尤其时当你试图构建大型的软件系统时。如, 连接器报告无法解析一个引用。 静态变量和全局变量的区别是什么?如果你在不同的 C 文件中定义了名字相同的两个全局变量会发生什么?静态库和动态库的区别是什么?我们在命令行上排列库的顺序有什么影响?最严重的时,为什么有些链接错误直到运行时才会出现?
- 避免安全漏洞。多年来,缓冲区溢出错误是造成大多数网络和 Internet 服务器上安全漏洞的主要原因。存在这些错误是因为很少有程序员能够理解需要限制从不受信任的源接收数据的数据和格式。学习安全编程的第一步就是理解数据和控制信息存储在程序栈上的方式会引起的后果。
1.4 处理器读并解释存储在内存中的指令
此刻,hello.c 源文件已经被编译系统翻译成了可执行目标文件 hello,并存放在磁盘上。要想在类Unix系统上运行该可执行文件,我们将它的文件名输入到称为 shell 的应用程序中:
wxc@ubuntu:~/OSTest# ./hello
hello, world
wxc@ubuntu:~/OSTest#
shell 是一个命令行解释器,它输出一个提示符,等待输入一个命令行,然后执行这个命令。如果该命令行的第一个单词不是一个内置的 shell 命令,那么shell 就会假设这是一个可执行文件的名字,他将加载并运行这个文文件。
1.4.1 系统的硬件组成
为了理解运行 hello 程序时发生了什么,我们需要了解一个典型系统的硬件知识,如图所示。
1. 总线
贯穿整个系统的时一组电子管道,称作总线,它携带信息字节并负责在各个部件间传递。总线通常被设计成传送定长的字节快,也就是字(word)。字中的字节数(字长)是一个基本的系统参数,各个系统都不尽相同。目前的大多数机器字长要么是4个字节(32位),要么是8个字节(64位)。
2. I/O设备
I/O(输入/输出)设备时系统与外部世界的联系通道。我们的示例系统包括四个I/O设备:作为用户输入的键盘和鼠标,作为用户输出的显示器,以及用于长期存储数据和程序的磁盘驱动器(磁盘)。最开始,可执行程序 hello 就存放在磁盘上。
每个 I/O 设备都通过一个控制器或适配器与 I/O 总线相连。控制器和适配器之间的区别主要在于它们的封装方式。控制器是 I/O 设备本身或者系统的主板上的芯片组。而适配器则是一块插在主板插槽上的卡。无论如何,它们的功能都是在 I/O 总线和 I/O 设备之间传递信息。
3. 主存
主存是一个临时存储设备,在处理器执行程序时,用来存放程序和程序处理的数据。从物理上来说,主存是由一组动态随机存取存储器(DRAM)芯片组成的。从逻辑上来说,存储器是一个线性的字节数组,每个字节都有其唯一的地址(数组索引),这些地址是从零开始的。一般来说,组成程序的每条机器指令都由不同数量的字节构成。与 C 程序变量相对应的数据项的大小是根据类型变化的。
4. 处理器
中央处理单元(CPU),简称处理器,是解释(或执行)存储在主存中指令的引擎。处理器的核心是一个大小为一个字的存储设备(寄存器),称为程序计数器(PC)。在任何时刻,PC都指向主存中的某条机器语言指令(既含有该条指令的地址)。
从系统通电开始,知道系统断电,处理器一直在不断地执行程序计数器指向的指令,再更新程序计数器,使其指向下一条指令。处理器看上去是按照一个非常简单的指令执行模型来操作的,这个模型是由指令集架构决定的。在这个模型中,指令按照严格的顺序执行,而执行一条指令包含执行一些列的步骤。处理器从程序计数器指向的内存处读取指令,解释指令中的位,执行该指令指示的简单操作,然后更新 PC ,使其指向下一条指令,而这条指令并不一定和在内存中刚刚执行的指令相邻。
这样的简单操作并不多,它们围绕着主存、寄存器文件(register file)和算术/逻辑单元(ALU)进行。寄存器文件是一个小的存储设备,由一些单个字长的寄存器组成,每个寄存器都有唯一的名字。ALU 计算新的数据和地址值。下面是一些简单操作的例子, CPU 在指令的要求下可能会执行这些操作。
- 加载:从主存复制一个字节或者一个字到寄存器,以覆盖寄存器原来的内容。
- 存储:从寄存器复制一个字节或者一个字到主存的某个位置,以覆盖这个位置上原来的内容。
- 操作:把两个寄存器的内容复制到 ALU , ALU 对这两个字做算术运算,并将结果存放到一个寄存器中,以覆盖该寄存器中原来的内容
- 跳转:从指令本身中抽取一个字,并将这个字复制到程序计数器(PC)中,以覆盖 PC 中原来的值。
处理器看上去是它的指令集架构的简单实现,但实际上现代处理器使用了非常复杂的机制来加速程序的执行。因此,我们将处理器的指令集架构和处理器的微体系结构区分开来:指令集架构描述的是每条机器代码指令的效果;而微体系结构描述的是处理器实际上是如何实现的。
1.4.2 运行 hello 程序
前面简单描述了系统的硬件组成和操作,现在开始介绍我们运行示例程序时到底发生了些什么。
初始时,shell 程序执行它的指令,等待我们输入一个命令。当我们在键盘上输入字符串 “./hello ”, shell 程序将字符逐一读入寄存器,再把它存放到内存中,如下图所示。
当我们再键盘上敲回车键时,shell 程序就知道我们已经结束了命令的输入。然后 shell 执行一些列指令来加载可执行的 hello 文件,这些指令将 hello 目标文件中的代码和数据从磁盘复制到主存。数据包括最终会被输出的字符串 “hello, world\n”。
利用直接存储器存取(DMA)技术,数据可以不通过处理器而直接从磁盘到达主存。这个步骤如下图所示。
一旦目标文件 hello 中的代码和数据被加载到主存,处理器就开始执行 hello 程序的 main 程序中的机器语言指令。这些指令将 "hello, word\n"字符中的字节从主存复制到寄存器文件,再从寄存器文件中复制到显示设备,最终显示到屏幕上。这个步骤如下图所示。
1.5 高速缓存至关重要
这个简单的示例揭示了一个重要的问题,即系统花费了大量的时间把信息从一个地方挪到另一个地方。hello 程序的机器指令最初是存放在磁盘上,当程序加载时,它们被复制到主存;当处理器运行程序时,指令又从主存复制到处理器。相似地,数据串 " hello, world/n" 开始时在磁盘上,然后被复制到主存,最后从主存上复制到显示设备。从程序员的角度来看,这些复制就是开销,减慢了程序 “真正” 的工作。因此,系统设计者的一个主要目标就是使这些复制操作尽可能地完成。
根据机械原理,较大地存储设备要比较小地存储设备运行得慢,而快速设备得造价远高于同类得低速设备。比如说,一个典型系统上得磁盘驱动器可能比主存大1000倍,但对于处理器而言,从磁盘驱动器上读取一个字得时间开销要比从主存中读取得开销大1000万倍。
类似地,一个典型地寄存器文件只存储几百字节的信息,而主存里可存放几十亿字节。然而,处理器从寄存器文件中读数据比主存中读取几乎要快100倍。更麻烦的是,随着这些年半导体技术的进步,这种处理器与主存之间的差距还在持续增大。加快处理器的运行速度比加快主存的运行速度还要容易和便宜得多。
针对这种处理器与主存之间的差异,系统设计者采用了更小更快的存储设备,称为高速缓存存储器(cache memory,简称 cache 或告诉缓存),作为暂时的集结区域,存放处理器近期可能会需要的信息。下图展示了一个典型系统中的高速缓存存储器。位于处理器芯片上的L1高速缓存的容量可以达到数万字节,访问速度几乎和访问寄存器文件一样快。一个容量为数十万到数百万字节的更大的L2高速缓存通过一条特殊的总线连接到处理器。进程访问L2高速缓存的时间要比访问L1高速缓存的时间长5倍,但是这任然比访问主存的时间快5~10倍。L1和L2高速缓存是一种叫做静态随机访问存储器(SRAM)的硬件技术实现的。比较新的、处理能力更强大的系统甚至有三级高速缓存:L1、L2和L3。系统可以获得一个很大得存储器,同时访问速度也很快,原因是利用了高速缓存得局部性原理,即程序具有访问局部区域里的数据和代码的趋势。通过让高速缓存里存放可能经常访问的数据,大部分的内存操作都能在快速的高速缓存中完成。
意识到高速缓存存储器存在的应用程序员能够利用高速缓存将程序的性能提高一个数量级。
1.6 存储设备形成层次结构
在处理器和一个较大较慢的设备(例如主存)之间插入一个更小更快的存储设备(例如高速缓存)的想法已经成为一个普遍的观念。实际上,每个计算机系统中的存储设备都被组织成了一个存储器层次结构,如下图所示。在这个层次结构中,从上至下,设备的访问速度越来越慢、容量越来越大,并且每字节的造价也越来越便宜。寄存器文件在层次结构的最顶部,也就是第0级或记为L0。这里我们展示的是三层高速缓存L1到L3,占据存储器层次结构的第1层到第3层。主存在第4层,以此类推。
存储器层次结构的主要思想是上一层的存储器作为低一层存储器的高速缓存。因此,寄存器文件就是L1的高速缓存,L1是L2的高速缓存,L2是L3的高速缓存,L3是主存的高速缓存,而主存又是磁盘的高速缓存。在某些具有分布式文件系统的网络系统中,本地磁盘就是存储在其他系统中磁盘上的数据的高速缓存。
正如可以运用不同的高速缓存的知识来提高程序性能一样,程序员同样可以利用对整个存储器层次结构的理解来提高程序性能。
1.7 操作系统管理硬件
让我们回到hello程序的例子。当shell加载和运行hello程序时,以及hello程序输出自己的消息时,shell 和 hello 程序都没有直接访问键盘、显示器、磁盘或者主存。取而代之的是,他们依靠操作系统提供的服务。我们可以把操作系统看成是应用程序和硬件之间插入的一层软件,如下图所示。所有应用程序对硬件的操作尝试都必须通过操作系统。
操作系统有两个基本功能:(1)防止硬件被失控的应用程序滥用;(2)向应用程序提供简单一致的机制来控制复杂而又通常大不相同的低级硬件设备。操作系统通过几个基本的抽象概念(进程、虚拟内存和文件)来实现这两个功能。如图1-11所示,文件是对I/O设备的抽象表示,虚拟内存是对主存和磁盘I/O设备的抽象表示,进程则是对处理器、主存和I/O设备的抽象表示。
1.7.1 进程