lex与yacc程序学习（1）——词法分析器&lex工作过程

最新推荐文章于 2020-05-12 09:34:23 发布

原创最新推荐文章于 2020-05-12 09:34:23 发布 · 1k 阅读

2 ·

CC 4.0 BY-SA版权

学习笔记专栏收录该内容

8 篇文章

订阅专栏

本文深入探讨了Lex源程序的结构，包括辅助定义和识别规则两大部分。详细讲解了如何使用正规式定义语法单位，如字母和数字，并介绍了识别规则如何对应程序员单词的识别，如关键字和标识符的识别过程。

（图 cr：王挺-国防科学技术大学-计算机学院计算机科学与技术系）

lex源程序分为辅助定义（AUXILIARY DEFINITION）和识别规则（RECOGNITION RULES）两个部分。

辅助定义（AUXILIARY DEFINITION）：用文法的形式定义一些语法单位。

例

把字母定义为letter，0~9定义为digit：

AUXILIARY DEFINITION
    letter->A|B|…|Z 
    digit->0|1|…|9

这些AB既可以看成是字符、也可以是字、还可以是正规式。

这是最基本的正规式。

识别规则（RECOGNITION RULES）：对应程序员单词的识别规则。

正规式+正规式所对应的单词的种别编码+自身的值，

RECOGNITION RULES
1    DIM                     {RETURN(1,-)}
2    IF                      {RETURN(2,-)}
3    DO                      {RETURN(3,-)}
4    STOP                    {RETURN(4,-)}
5    END                     {RETURN(5,-)}
6    letter(letter|digit)*   {RETURN(6,TOKEN)}
7    digit(digit)*           {RETURN(7,DTB)}
8    =                       {RETURN(8,-)}
9    +                       {RETURN(9,-)}
10   *                       {RETURN(10,-)}
11   **                      {RETURN(11,-)}
12   ,                       {RETURN(12,-)}
13   (                       {RETURN(13,-)}
14   )                       {RETURN(14,-)}

letter(letter|digit) ：这条正规式识别的是以字母开头的字母数字串。

TOKEN：代表单词自身的字符串。

：识别标识符。