汇编编译器用来将汇编程序翻译为二进制的机器码程序。
因为是学习计算机系统要素一书而写的这一部分代码,所以,二进制代码和汇编代码规范均采用该书所定规范。
规范描述:
1、 语法规约和文件格式
汇编程序以"hack"为后缀名,二进制代码程序文件以"asm"为后缀名。
二进制代码文件由一行行1和0组成的字符串组成,每行16位,也就是说CPU为16位架构。
汇编文件也是由文本组成,每一行代表一条指令或者一个符号声明。
指令:A指令或C指令,稍后详细介绍。
符号声明:文本格式为"(变量)"形式,符号声明不产生实际代码,只是用来说明该符号代表的代码的位置。
2、 指令
指令分为两类,A指令,即寻址指令;C指令,即计算指令;
A指令 @value
// value是一个非负十进制数
//或表示该数值的符号
对应二进制值:
0vvv vvvv vvvv vvvv
v代表数值
C指令 dest=comp;jump
// dest或jump域都可以为空
// 如果dest为空,则”=“被省略
// 如果jump为空,则”;“被省略
对应二进制值:
111a c1c2c3c4 c5c6d1d2 d3j1j2j3
a c1c2c3c4 c5c6 构成comp域
d1d2d3 构成dest域
j1j2j3 构成jump域
编译器编写思路:
我们先来解决一个假设,是否每天汇编指令(除符号说明指令)对应一条二进制指令?
因为每条汇编都与一条机器码指令对应,所以上述假设成立。
我想编译器的实现应该分为两个过程,第一个过程先对符号进行处理,对符号进行代码指令行记录,第二个过程就是对语句进行直接翻译的过程,对语句进行翻译需要对字符串格式进行匹配,如果匹配不正确,那么就是代码语法错误了。
看上去上边就是我们工作的全部了,其实只是我们的核心思想而已,占到我们工作总量的30%-50%,所以如果感觉上边工作需要2个小时完成,那么我们的工作实际可能就需要4个小时来完成。
为什么有必要分为两个过程来完成?
因为,符号可能在使用时,还处于尚未定义,所以就需要向后寻找符号的值,如果暂时不处理,后期再进行处理,一方面很复杂,另一方面时间效率也不怎么样。
实现语言 C++
需要完成文件读写的工作
因为我们文件比较小,可以一次将所有内容读取出来,组织为行的形式
需要完成字符串处理的工作
左右非字符(空格或其它)字符清除
清除所有非字符字符,因为我们的汇编语言中不存在非字符的特殊形式,所以清除这些字符对汇编语言不产生影响,但会为解析格式提供便利。
需要完成二进制代码生成工作
符号与二进制代码之间定义了生成映射关系。