计算机系统漫游
所有的计算机都有相似的硬件和软件结构,它们又执行着相似的功能。这本书就是为了那些希望深入了解这些组件如何工作以及这些组件是如何影响程序的正确性和性能的程序员而写的。
以下将以一个hello程序的生命周期来开始对系统的学习——从它被程序员创建开始,到在系统上运行,输出简单的消息,然后终止。我们将沿着这个生命周期,简要的介绍一些逐步出现的关键概念,专业术语和组成部分。
#include <stdio.h>
int main()
{
printf("hello,world \n");
return 0;
}
1.1 信息就是位+上下文
hello程序的生命周期是从一个源程序(或者说源文件)开始的,即程序员通过编辑器创建并保存的文本文件,文件名是hello.c。源程序实际上就是一个由值0和1组成的位(又称为比特)序列,8个位被组织成一组,成为字节。每个字节表示程序中的某些文本字符。
hello程序是以字节序列的方式存储的文件中的。每个字节都有一个整数值,对应于某些字符。例如第一个字节的整数值为35,它对应的字符是"#",第二个字节的整数值为105,它对应的字符是"i"。像hello.c这样只由ASCII字符构成的文本称为文本文件,其他所有的文件都称为二进制文件。
- hello.c的表示方法说明了一个基本思想:系统中的所有信息——包括磁盘文件、内存中的程序、内存中存放的用户数据以及网络上传输的数据,都是用一串比特表示的。区分不同数据对象的唯一方法是我们读到这些数据对象时的上下文。
1.2 程序被其他程序翻译成不同的格式
hello程序的生命周期是从一个高级C语言程序开始的(因为这种形式能够被人读懂)。然而,为了在系统上运行hello.c程序,每条C语句都必须被其他程序转化为一系列的低级机器语言指令。然后这些执行按照一种称为可执行目标程序的格式打好包,并且以二进制磁盘文件的形式存放起来,目标程序也称为可执行目标文件。
GCC编译器驱动程序读取源文件hello.c,并把它翻译成一个可执行目标文件hello。翻译过程如下图:
- 预处理阶段:预处理器(cpp)根据以字符#开头!的命令,修改原始的C程序。比如hello.c中的第一行 #include
<stdio.h>
命令告诉预处理器读取系统头文件stdio.h的内容,并把它直接插入程序文本中。结果得到了另一个C程序,通常以.i作为文件扩展名。 - 编译阶段:编译器(ccl)将文本文件hello.i翻译成文本文件hello.s,它包含一个汇编语言程序。
- 汇编阶段:汇编器(as)将hello.s翻译成机器指令语言,把这些指令打包为一种叫做可重定位目标程序(relocatable
object program)的格式,并将结果保存在目标文件hello.o中。 - 链接阶段:hello程序调用的printf函数,printf函数存在一个名为printf.o的单独的预编译好了的目标文件中,而这个文件必须以某种方式合并到我们的hello.o程序中。链接器(ld)就负责处理这种合并。结果就得到了hello文件,它是一个可执行目标文件(或可执行文件),可以被加载到内存中,由系统执行。
1.3 了解编译系统如何工作是大有益处的
- 优化程序性能。比如,一个switch语句是否总是比一些列的if-else语句高效得多?一个函数调用的开销有多大?while循环比for循环更有效吗?指针引用比数据索引更有效吗?为什么循环求和的结果放到一个本地变量中,会比将其放到一个通过引用传递过来的参数中,运行起来快很多呢?为什么只是简单地重新排列一下算术表达式中括号就能让函数运行的更快呢?