中间代码翻译:原理与实践
1. 中间表示的重要性
在编译器的语义分析阶段,需要将抽象语法转换为抽象机器代码。虽然可以直接将代码翻译为真实机器代码,但这会影响可移植性和模块化。例如,若要为 N 种不同的源语言编写针对 M 种不同机器的编译器,理论上需要 N · M 个编译器,这是一项庞大的实现任务。
中间表示(IR)是一种抽象机器语言,它能表达目标机器的操作,同时又不过多依赖于特定机器的细节,并且独立于源语言的细节。编译器的前端负责词法分析、语法分析、语义分析以及转换为中间表示;后端则对中间表示进行优化并转换为机器语言。
使用中间表示的可移植编译器,只需 N 个前端和 M 个后端,这样的实现任务更为合理。即使只构建一个前端和一个后端,好的中间表示也能将任务模块化,使前端不被特定机器的细节所困扰,后端也无需处理特定源语言的信息。在本编译器中,选择了简单的表达式树作为中间表示。
1.1 中间表示树的特性
一个好的中间表示应具备以下特性:
- 便于语义分析阶段生成。
- 便于为所有目标机器转换为真实机器语言。
- 每个构造必须有清晰简单的含义,以便于对中间表示进行优化转换的指定和实现。
由于抽象语法的单个部分和真实机器指令都可能很复杂,且抽象语法的复杂部分不一定与机器能执行的复杂指令完全对应,因此中间表示的各个组件应只描述极其简单的操作,如单个取数、存储、加法、移动或跳转。这样,任何抽象语法的复杂部分都能转换为合适的抽象机器指令集,而抽象机器指令组可以组合成真实机器指令。
1.2 树运算符的含义
树语言的表达式(T_exp)表示某种值的计算(可能有副作