From :http://www.ibm.com/developerworks/cn/linux/sdk/lex/index.html
Yacc 代表 Yet Another Compiler Compiler。 Yacc 的 GNU 版叫做Bison。它是一种工具,将任何一种编程语言的所有语法翻译成针对此种语言的Yacc 语 法解析器。它用巴科斯范式(BNF, Backus NaurForm)来书写。按照惯例,Yacc 文件有 .y 后缀。编译行如下调用 Yacc编译器:
$ yacc <options> |
在进一步阐述以前,让我们复习一下什么是语法。在上一节中,我们看到Lex 从输入序列中识别标记。如果你在查看标记序列,你可能想在这一序列出现时执行某一动作。这种情况下有效序列的规范称为语法。Yacc 语法文件包括这一语法规范。它还包含了序列匹配时你想要做的事。
为了更加说清这一概念,让我们以英语为例。 这一套标记可能是:名词,动词,形容词等等。为了使用这些标记造一个语法正确的句子,你的结构必须符合一定的规则。一个简单的句子可能是名词+动词或者名词+动词+名词。(如 I care. Seespot run.)
所以在我们这里,标记本身来自语言(Lex),并且标记序列允许用 Yacc来指定这些标记(标记序列也叫语法)。
用 Yacc 来创建一个编译器包括四个步骤:
- 通过在语法文件上运行 Yacc 生成一个解析器。
- 说明语法:
- 编写一个 .y 的语法文件(同时说明 C 在这里要进行的动作)。
- 编写一个词法分析器来处理输入并将标记传递给解析器。 这可以使用Lex 来完成。
- 编写一个函数,通过调用 yyparse() 来开始解析。
- 编写错误处理例程(如 yyerror())。
- 编译 Yacc 生成的代码以及其他相关的源文件。
- 将目标文件链接到适当的可执行解析器库。
如同 Lex 一样, 一个 Yacc 程序也用双百分号分为三段。它们是:声明、语法规则和 C 代码。 我们将解析一个格式为 姓名 = 年龄的文件作为例子,来说明语法规则。我们假设文件有多个姓名和年龄,它们以空格分隔。 在看 Yacc程序的每一段时,我们将为我们的例子编写一个语法文件。
C 声明可能会定义动作中使用的类型和变量,以及宏。还可以包含头文件。每个 Yacc声明段声明了终端符号和非终端符号(标记)的名称,还可能描述操作符优先级和针对不同符号的数据类型。lexer (Lex) 一般返回这些标记。所有这些标记都必须在 Yacc声明中进行说明。
在文件解析的例子中我们感兴趣的是这些标记:name, equal sign, 和age。Name 是一个完全由字符组成的值。 Age是数字。于是声明段就会像这样: