语法解析的基本原理和快速上手实践

最新推荐文章于 2024-06-29 10:39:58 发布

原创

最新推荐文章于 2024-06-29 10:39:58 发布 · 789 阅读

2 ·

CC 4.0 BY-SA版权

文章标签：

#编译原理 #语法解析 #golang

语法解析本质上是判断给定的字符串序列是否符合特定规则，它是编译原理中难度相当大的部分，当然也相当不好理解。举个例子，我们如何识别由数字0到9，和符号(,),+,-所形成的算术表达式，例如"1+2", “1+(3-2)”, “1”, "((1+2)+(((4+4))))“都是满足规则的表达式，然而”()+1"就不能满足。一种直观的做法是我们依次读入字符然后做即时判断，例如首先看第一个读到的字符是不是数字，或者是不是左括号，然后根据读入的前一个字符看看接下来读入的字符是否合法，你可以尝试用代码来实现试试，你很快会发现代码非常难写。

有没有系统化的方法来处理这样的问题呢。编译原理中的语法解析就是解决这类问题的方案。我们看看如何解决上面提到的问题，在编译原理中有一种数据结构胶backus-nour范式，它给出了一种自动化的判断给定字符串是否复合特定规则的方法，例如上面的问题对应的backus范式为：

list -> "(" list ")"
list -> list  "+" list 
list -> list "-" list 
list -> number
number -> "0" | "1" | "2" | "3" | "4"| "5" | "6" | "7" | "8" | "9"

如果你是第一次接触这个东西，你会感觉很难理解，其中一个原因在于，它使用递归的方法来定义字节，上面带有->的表达式我们称为生产式，出现在箭头左边的符号叫非终结符，只出现在右边的符号叫终结符，例如字符"0" 到 “9”，和左右括号"(",")"。所谓非终结符就是能通过箭头右边的符号进行分解，这里一个难点在于它可以自己分解自己，例如list -> ( list ) 中，左边的list 可以分解成左括号，然后是list 和右括号的组合，我们先看具体例子，假设给定表达式3 + 2，我们怎么用上面的生产式来判断它是否符合规定呢。

算法的基本做法是选择相应的生产式进行”套用“，直到生产式解析为终结符为止。于是对应表达式3+2，我们可以猜到可以使用list -> list + list, 因为只有它含有符号"+"。于是我们接下来的任务就是看 3 和 2是否满足list的定义，此时我们不难猜测可以使用list -> number，于是我们又得判断3, 2是否能使用number来解析，现在我们看到number右边的字符包含0到9，于是可以解析，由此表达式3 + 2满足上面生产式所规定的规则。

生产式是对字符串组合规律的一种抽象描述，所有能满足给定生产式的字符串组合就叫做生产式生成的“语言”。给定一系列字符串的组合，然后判断其是否满足给定生产式的判断过程叫“推导”，同时生产式所描述的规则就叫做"语法“。我们再看一个例子，java,c++,c代码中函数调用,例如max(x,y), 其的语法:

call -> ID ( optparams )
optparams -> params | "ε"
params -> params  "," param | param
(此处 param 的生产式没有给出来)

语法的定义比较抽象，通过这里几个例子，大家有没有一些感性认识。我个人觉得很难用语言来描述什么叫语法，但我发现如果使用代码的话，或许能让人有“心领神会”的感觉。另外值得一提的是推导的基本逻辑，我们看到推导实际上是用生产式去”套用“字符串，看看能不能一路解析到终结符，但是生产式有若干个，我们如何确定用哪个去套呢？当我们

最低0.47元/天解锁文章