解析器组合器的代数设计
1. 解析器组合器概述
解析器是一种专门的程序,它以非结构化数据(如文本、符号、数字或标记流)为输入,并输出该数据的结构化表示。例如,我们可以编写一个解析器,将逗号分隔的文件转换为列表的列表,其中外层列表的元素表示记录,每个内层列表的元素表示每条记录中由逗号分隔的字段。另一个例子是将 XML 或 JSON 文档转换为树状数据结构的解析器。
在本设计中,我们将使用 JSON 解析作为一个实际的用例,来构建一个用于创建解析器的组合器库。这不仅是关于解析本身,更侧重于深入了解函数式设计的过程。
2. 代数设计方法
传统的设计方法可能是先发明代数中的函数,再完善函数集和调整数据类型表示,最后才考虑定律。而我们采用的代数设计方法则是先从代数(包括其定律)开始,稍后再决定数据类型的表示。
在解析器组合器库中,解析器可以很简单,例如只识别输入中的单个字符。然后,我们使用组合器从这些基本解析器组装成复合解析器,再从复合解析器组装成更复杂的解析器。
与解析器生成器(如 Yacc 或 Java 中的 ANTLR)不同,解析器生成器根据语法规范生成解析器代码,虽然高效但生成的代码难以调试且逻辑片段难以复用。而解析器组合器库中的解析器是普通的一等值,虽然速度可能较慢,但逻辑复用简单,且无需外部工具。
3. 初步组合器设计
我们从最简单的解析器开始,即识别单个字符 ‘a’ 的解析器。为此,我们发明了一个组合器 char :
def char(c: Char): Par
超级会员免费看
订阅专栏 解锁全文
821

被折叠的 条评论
为什么被折叠?



