编译的过程大多是词法分析、语法分析和语义分析的过程。当然还包括代码优化和生成的过程,如图1所示。
词法分析 :lexical analysis is the process of converting a sequence of characters into a sequence of tokens。比如,通过词法分析,此程序语言:net_worth_future = (assets - liabilities);将转成
lexical token stream:
NAME "net_worth_future" EQUALS OPEN_PARENTHESIS NAME "assets" MINUS NAME "liabilities" CLOSE_PARENTHESIS SEMICOLON
语法分析 :syntactic analysis , is the process of analyzing a sequence of tokens to determine their grammatical structure with respect to a given (more or less) formal grammar . And it checks for correct syntax and builds a data structure (often some kind of parse tree , abstract syntax tree or other hierarchical structure) implicit in the input tokens.
以上过程基本上如图2所示。
抽象语法树 :abstract syntax tree (AST), or just syntax tree is a tree representation of the syntax of some source code . 这里所谓的抽象是指语法树并不对所有源代码中的结构都显现的显示,比如操作符括号,因为大多数操作符都隐含在树的结构中。
语义分析 :非形式地说,语法关注的是合法程序的形式,而语义关注它们的意义。按习惯说法,语言语法关注的就是语言定义中可以用上下文无关文法方便描述的那一部分,而 语义就是定义中不能这样做的那一部分。这种习惯虽然并不总与直观相吻合,但在实践中却很有用。举例说,当我们要求一个子程序调用里所包含的实际参数个数与 该子程序定义的形式参数个数一样时,可能很希望说这是一个语法问题。因为毕竟我们可以数出实参的个数,完全不需要知道它们的意义。不幸的是,使用上下文无 关文法的规则,或者在存在分别编译的情况下,我们都无法处理这件事。与此类似,虽然我们可能写出一个上下文无关文法,要求在每个函数里至少包含一个 return语句,但这样做涉及的复杂性也使这一做法完全没有吸引力。一般而言,任何要求编译器去比较相距很远的不同事物的规则,或者要求它去检查并不是 完好嵌套的事物的规则,最终都会变成语义问题。