66. 精读《手写 SQL 编译器 - 语法分析》

最新推荐文章于 2021-10-24 22:20:49 发布

原创

最新推荐文章于 2021-10-24 22:20:49 发布 · 484 阅读

0 ·

CC 4.0 BY-SA版权

本文介绍了如何手写一个简单的 SQL 语法分析器，使用递归下降方法，涉及 LL(k) 和 LR 解析策略。文章通过迷宫比喻解释了语法分析过程，讲解了词法分析、Match 函数、递归下降解析的基本操作，包括空字符串产生式、单词匹配、连接运算和并运算，并探讨了如何实现回溯功能以达到 LL(∞) 的解析能力。

1 引言

接着上周的文法介绍，本周介绍的是语法分析。

以解析顺序为角度，语法分析分为两种，自顶而下与自底而上。

自顶而下一般采用递归下降方式处理，称为 LL(k)，第一个 L 是指从左到右分析，第二个 L 指从左开始推导，k 是指超前查看的数量，如果实现了回溯功能，k 就是无限大的，所以带有回溯功能的 LL(k) 几乎是最强大的。LL 系列一般分为 LL(0)、LL(1)、LL(k)、LL(∞)。

自底而上一般采用移进（shift）规约（reduce）方式处理，称为 LR，第一个 L 也是从左到右分析，第二个 R 指从右开始推导，而规约时可能产生冲突，所以通过超前查看一个符号解决冲突，就有了 SLR，后面还有功能更强的 LALR(1) LR(1)LR(k)。

通过这张图可以看到 LL 家族与 LR 家族的能力范围：

640?wx_fmt=png

如图所示，无论 LL 还是 LR 都解决不了二义性文法，还好所有计算机语言都属于无二义性文法。

值得一提的是，如果实现了回溯功能的 LL(k) -> LL(∞)，那么能力就可以与 LR(k) 所比肩，而 LL 系列手写起来更易读，所以笔者采用了 LL 方式书写，今天介绍如何手写无回溯功能的 LL。

另外也有一些根据文法自动生成 parser 的库，比如兼容多语言的 antlr4 或者对 js 支持比较友好的 pegjs。

2 精读

递归下降可以理解为走多出口的迷宫：

640?wx_fmt=png

我们先根据 SQL 语法构造一个迷宫，进迷宫的不是探险家，而是 SQL 语句，这个 SQL 语句会拿上一堆令牌（切分好的 Tokens，详情见精读：词法分析），迷宫每前进一步都会要求按顺序给出令牌（交上去就没收），如果走到出口令牌刚好交完，就成功走出了迷宫；如果出迷宫时手上还有令牌，会被迷宫工作人员带走。这个迷宫会有一些分叉，在分岔路上会要求你亮出几个令牌中任意一个即可通过（LL1），有的迷宫允许你失败了存档，只要没有走出迷宫，都可以读档重来（LLk），理论上可以构造一个最宽容的迷宫，只要还没走出迷宫，可以在分叉处任意读档（LL∞），这个留到下一篇文章介绍。