一、前言:
要理解编译(Compilation) 和链接(Linking),首先需要明确它们的核心定位:二者是将人类可读的源代码(如 C、C++、Java 代码)转化为计算机可执行的二进制程序的两个关键步骤,共同构成 “ 源代码→可执行文件 ” 的核心流程。
在ANSI C的任何⼀种实现中,存在两个不同的环境:
①第1种是翻译环境,在这个环境中源代码被转换为可执⾏的机器指令(⼆进制指令)。
②第2种是运⾏环境,它⽤于实际执⾏代码。
如下图所示:


二、翻译环境:
翻译环境,主要执行的是将源代码转换成可执行的机器指令,即二进制指令,那么在该环境下是如何将程序员编码的源文件代码转换成计算机能够理解的二进制指令呢?
其实翻译环境是由编译和链接两个过程组成的,通过编译和链接这两个过程,即可将源代码文件解析为计算机能懂的机器指令。
下面将重点讲解编译过程 :
如下图所示:编译器主要的作用是将源代码文件(.c / .h / .cpp /.java 文件 )解析为目标文件(.obj / .o 文件)

⼀个C语⾔的项⽬中可能有多个 .c ⽂件⼀起构建,那多个 .c ⽂件如何⽣成可执⾏程序呢?
①多个.c⽂件单独经过编译器,编译处理⽣成对应的⽬标⽂件。
②多个⽬标⽂件和链接库⼀起经过链接器处理⽣成最终的可执⾏程序。
③链接库是指运⾏时库(它是⽀持程序运⾏的基本函数集合)或者第三⽅库。
温馨提示:在Windows环境下的⽬标⽂件的后缀是 .obj ,Linux环境下⽬标⽂件的后缀是 .o
编译的 4 个核心阶段:
| 阶段 | 核心任务 | 输入 / 输出示例 |
|---|---|---|
| 预处理(Preprocessing) | 处理源代码中的 “预处理指令”(以#开头),生成 “纯净的源代码”。 | 输入:main.c(含#include)输出: main.i(展开头文件、删除注释) |
| 编译(Compilation 狭义) | 将预处理后的代码翻译成汇编语言代码(低级语言,对应机器指令的符号化表示)。 | 输入:main.i输出: main.s(汇编代码) |
| 汇编(Assembly) | 将汇编代码翻译成机器指令(二进制),生成 “目标文件”(.o/.obj)。 | 输入:main.s输出: main.o(二进制目标文件) |
| 优化(Optimization) | (可选但默认开启)对代码进行性能优化(如循环展开、变量复用),可作用于编译 / 汇编阶段。 | 输入:main.s或main.o输出:优化后的 main.o |
编译的进程图如下所示: 
1.1预处理(预编译)
在预处理阶段,源⽂件和头⽂件会被处理成为.i为后缀的⽂件。如果想在 gcc 环境下想观察⼀下,对 test.c ⽂件预处理后的.i⽂件,命令如下:
gcc -E test.c -o test.i
其中预处理主要进行的操作如下所示:
①将所有的 #define 删除,并展开所有的宏定义
②处理所有的条件编译指令,如: #if、#ifdef、#elif、#else、#endif
③处理#include 预编译指令,将包含的头⽂件的内容插⼊到该预编译指令的位置。这个过程是递归进⾏的,也就是说被包含的头⽂件也可能包含其他⽂件。
④删除所有的注释
⑤添加⾏号和⽂件名标识,⽅便后续编译器⽣成调试信息等
⑥或保留所有的#pragma的编译器指令,编译器后续会使⽤。
温馨提示:经过预处理后的.i⽂件中不再包含宏定义,因为宏已经被展开。并且包含的头⽂件都被插⼊到.i⽂件中。所以当我们⽆法知道宏定义或者头⽂件是否包含正确的时候,可以查看预处理后的.i⽂件来确认。
1.2编译
编译过程就是将预处理后的⽂件进⾏⼀系列的:词法分析、语法分析、语义分析及优化,⽣成相应的汇编代码⽂件。
编译过程的命令如下:
gcc -S test.i -o test.s
以如下代码为例,演示代码编译的过程:
array[index] = (index+4)*(2+6);
1.2.1词法分析
将源代码程序被输⼊扫描器,扫描器的任务就是简单的进⾏词法分析,把代码中的字符分割成⼀系列的记号(关键字、标识符、字⾯量、特殊字符等)。
通过词法分析得到如下表格:

1.2.2语法分析
接下来语法分析器,将对扫描产⽣的记号进⾏语法分析,从⽽产⽣语法树。这些语法树是以表达式为节点的树。

1.2.3语义分析
由语义分析器来完成语义分析,即对表达式的语法层⾯分析,编译器所能做的分析是语义的静态分析,静态语义分析通常包括声明和类型的匹配,类型的转换等,这个阶段会报告错误的语法信息。

1.3编译
通过编译过程,将汇编代码转变成机器可执⾏的指令,每⼀个汇编语句⼏乎都对应⼀条机器指令,就是根据汇编指令和机器指令的对照表⼀⼀的进⾏翻译,也不做指令优化。
汇编的命令如下:
gcc -c test.s -o test.o
1.4链接
①链接是⼀个复杂的过程,链接的时候需要把⼀堆⽂件链接在⼀起才⽣成可执⾏程序,链接过程主要包括:地址和空间分配,符号决议和重定位等这些步骤,解决⼀个项⽬中多⽂件、多模块之间互相调⽤的问题。
②通过上述表示,这就解释了为什么我们写两个独立的.c文件,能够互相访问,就是通过将多文件和多模块进行链接处理,使其能够互相调用。
代码示例:通过写main.c文件和fun.c文件,实现两数相加。
①main.c文件中调用add函数
#include <stdio.h>
// 声明add函数(告诉编译器:add存在,后续链接会找实现)
int add(int a, int b);
int main()
{
int res = add(2, 3);
printf("Result: %d\n", res);
return 0;
}
②fun.c文件中实现add函数
// 定义add函数
int add(int a, int b)
{
return a + b;
}
总结上述操作的原理:
①单独编译每个源代码文件,生成目标文件:
# 编译main.c生成main.o(-c表示“只编译不链接”) gcc -c main.c -o main.o # 编译func.c生成func.o gcc -c func.c -o func.o
②链接目标文件和库文件,生成可执行文件:
# 链接main.o、func.o,以及默认的libc库,生成可执行文件a.out gcc main.o func.o -o my_program
通过编译和链接这两个过程就能实现,两个文件的互相访问。
三、运行环境
运行环境主要依赖的是操作系统经过一系列的操作,底层操作过于复杂,我们就简单说一点:
1. 程序必须载⼊内存中,在有操作系统的环境中:⼀般这个由操作系统完成。在独⽴的环境中,程序的载⼊必须由⼿⼯安排,也可能是通过可执⾏代码置⼊只读内存来完成。
2. 程序的执⾏便开始。接着便调⽤main函数。
3. 开始执⾏程序代码。这个时候程序将使⽤⼀个运⾏时堆栈(stack),存储函数的局部变量和返回地址。程序同时也可以使⽤静态(static)内存,存储于静态内存中的变量在程序的整个执⾏过程⼀直保留他们的值。
4. 终⽌程序。正常终⽌main函数;也有可能是意外终⽌。
既然看到这里了,不妨点赞+收藏,感谢大家,若有问题请指正。

8763





