语法解析本质上是判断给定的字符串序列是否符合特定规则,它是编译原理中难度相当大的部分,当然也相当不好理解。举个例子,我们如何识别由数字0到9,和符号(,),+,-所形成的算术表达式,例如"1+2", “1+(3-2)”, “1”, "((1+2)+(((4+4))))“都是满足规则的表达式,然而”()+1"就不能满足。一种直观的做法是我们依次读入字符然后做即时判断,例如首先看第一个读到的字符是不是数字,或者是不是左括号,然后根据读入的前一个字符看看接下来读入的字符是否合法,你可以尝试用代码来实现试试,你很快会发现代码非常难写。
有没有系统化的方法来处理这样的问题呢。编译原理中的语法解析就是解决这类问题的方案。我们看看如何解决上面提到的问题,在编译原理中有一种数据结构胶backus-nour范式,它给出了一种自动化的判断给定字符串是否复合特定规则的方法,例如上面的问题对应的backus范式为:
list -> "(" list ")"
list -> list "+" list
list -> list "-" list
list -> number
number -> "0" | "1" | "2" | "3" | "4"| "5" | "6" | "7" | "8" | "9"
如果你是第一次接触这个东西,你会感觉很难理解,其中一个原因在于,它使用递归的方法来定义字节,上面带有->的表达式我们称为生产式,出现在箭头左边的符号叫非终结符,只出现在右边的符号叫终结符,例如字符"0" 到 “9”,和左右括号"(",")"。所谓非终结符就是能通过箭头右边的符号进行分解,这里一个难点在于它可以自己分解自己,例如list -> ( list ) 中,左边的list 可以分解成左括号, 然后是list 和 右括号的组合,我们先看具体例子,假设给定表达式3 + 2,我们怎么用上面的生产式来判断它是否符合规定呢。
算法的基本做法是选择相应的生产式进行”套用“,直到生产式解析为终结符为止。于是对应表达式3+2,我们可以猜到可以使用list -> list + list, 因为只有它含有符号"+"。于是我们接下来的任务就是看 3 和 2是否满足list的定义,此时我们不难猜测可以使用list -> number,于是我们又得判断3, 2是否能使用number来解析,现在我们看到number右边的字符包含0到9,于是可以解析,由此表达式3 + 2满足上面生产式所规定的规则。
生产式是对字符串组合规律的一种抽象描述,所有能满足给定生产式的字符串组合就叫做生产式生成的“语言”。给定一系列字符串的组合,然后判断其是否满足给定生产式的判断过程叫“推导”,同时生产式所描述的规则就叫做"语法“。我们再看一个例子,java,c++,c代码中函数调用,例如max(x,y), 其的语法:
call -> ID ( optparams )
optparams -> params | "ε"
params -> params "," param | param
(此处 param 的生产式没有给出来)
语法的定义比较抽象,通过这里几个例子,大家有没有一些感性认识。我个人觉得很难用语言来描述什么叫语法,但我发现如果使用代码的话,或许能让人有“心领神会”的感觉。另外值得一提的是推导的基本逻辑,我们看到推导实际上是用生产式去”套用“字符串,看看能不能一路解析到终结符,但是生产式有若干个,我们如何确定用哪个去套呢?当我们