上下文无关文法（编译原理）

最新推荐文章于 2024-06-13 16:46:34 发布

Jay__007

最新推荐文章于 2024-06-13 16:46:34 发布

阅读量585

点赞数

分类专栏：编译原理文章标签：开发语言运维正则表达式 windows

本文链接：https://blog.youkuaiyun.com/H931053/article/details/128927877

版权

编译原理专栏收录该内容

2 篇文章

订阅专栏

文章详细介绍了词法分析的基础，包括单词分类、模式和记号的概念，以及词法分析器的作用和工作方式。接着，文章深入探讨了正规式和正规集的定义，以及如何通过正规式构建非确定和确定的有限自动机。最后，讨论了从正规式到NFA，再到DFA的转换过程，以及词法分析器的构造方法，包括最小化DFA和不同类型的词法分析器实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

词法分析

1. 词法分析基础夯实

记号、模式与单词

单词的分类：关键字(保留字)、标识符、字面量、特殊符号

模式（pattern）：产生/识别单词的规则

记号（token）：按照某个模式(或规则)识别出的元素(一组)

单词（lexeme）：被识别出的元素的值(字符串本身) ，也称为词值

词法分析器的作用：

识别记号并交给语法分析器(根据模式识别记号)

滤掉源程序中的无用成分,如注释、空格和回车等

处理与具体平台有关的输入(如文件结束符的不同表示等)

调用符号表管理器和出错处理器，进行相关处理

工作方式

单独一遍扫描

作为语法分析器的子程序

并行方式

2.模式的形式化描述

2.1字符串与语言

语言L是有限字母表∑上有限长度字符串的集合.

定义中强调两个有限，因为计算机的表示能力有限：

字母表是有限的，即字母表中元素是有限多个；

字符串的长度是有限的，即字符串中字符个数是有限多个。

(字符串与字符串集合相关的概念与运算,如前缀、后缀、子串、子序列等，字符串的并、交、连接、差、闭包)

2.2 正规式与正规集

令Σ是一个有限字母表，则Σ上的 正规式 及其表示的集合递归定义如下:
    1. ε是正规式，它表示集合  L(ε) = {ε}
    2. 若a是Σ上的字符，则a是正规式，它表示集合L(a)={a}
    3. 若正规式r和s分别表示集合L(r)和L(s)，则
       （a） r|s是正规式，表示集合L(r)∪L(s)，
       （b） rs是正规式，表示集合L(r)L(s)，
       （c） r*是正规式，表示集合(L(r))*，
       （d）(r)是正规式，表示的集合仍然是L(r)。                                   
       括弧用来改变运算的先后次序！

可用正规式描述(其结构)的语言称为正规语言或正规集。

若运算的优先级和结合性做下述约定:
    1. 三种运算均具有左结合性质；
    2. 优先级从高到低顺序排列为:闭包运算、连接运算、或运算。
则正规式中不必要的括号可以被省略。

若正规式P和Q表示了同一个正规集，则称P和Q是等价的，记为P=Q

2.3 简化正规式

(a) 正闭包 若r是表示L(r)的正规式，则r+是表示(L(r))+的正规式，且下述等式成立:r+ = rr* = rr，r = r+|ε;
          +与*具有相同的运算结合性和优先级
(b) 可缺省  若r是正规式，则r?是表示L(r)∪{ε}的正规式，且下述等式成立:r? = r|ε
           ? 与 * 具有相同的运算结合性和优先级
(c) 串    若r是若干字符进行连接运算构成的正规式，则:串“r” =  r ，且: ε= “”，   a = “a”（a是Σ的任一字符）
(d) 字符组 若r是若干字符进行|运算构成的正规式，则可改写为  [r’]，其中r’可以有如下两种书写形式：
             枚举:      如  a|b|e|h，可写为 [abeh]：
             分段:   如0|1|2|3|4|5|6|7|8|9|a|b|c|d|e , 可写为： [0-9a-e]
(e) 非字符组 若[r]是一个字符组形式的正规式，则[^r]是表示∑- L([r])的正规式。

3. 有限自动机——（符号的识别）

3.1 不确定的有限自动机（NondeterministicFinite Automaton, NFA）

NFA是一个五元组（5-tuple）：M =（S，∑，move，s0，F），其中
（1） S是有限个状态（state）的集合；
（2） ∑是有限个输入字符（包括ε）的集合；
（3） move是一个状态转移函数，move(si，ch)=sj表示，当前状态si下若遇到输入字符ch，则转移到状态sj；
（4） s0是唯一的初态（也称开始状态）；
（5） F是终态集（也称接受状态集），它是S的子集，包含了所有的终态。

直观地表达方式

状态转换图：用一个有向图来直观表示NFA

状态转换矩阵：用一个矩阵来直观表示NFA (矩阵中，状态对应行，字符对应列)

NFA(识别记号)的特点

NFA识别记号的最大特点是它的不确定性，即在当前状态下对同一字符有多于一个的下一状态转移。

具体体现：
定义： move函数是1对多的；
状态转换图：从同一状态出发，可通过多于一条标记相同字符的边转移到不同的状态；
状态转换矩阵： M[si,a]是一个状态的集合

NFA识别记号存在的问题

只有尝试了全部可能的路径,才能确定一个输入序列不被接受,而这些路径的条数随着路径长度的增长成指数增长

识别过程中需要进行大量回朔，时间复杂度升高且算法复杂

3.2 确定的有限自动机（NondeterministicFinite Automaton, NFA）

定义: DFA是NFA的一个特例，其中： 
  （1）没有状态具有ε状态转移(ε-transition)，即状态转换图中没有标记ε的边；
  （2）对每个状态s和每个字符a，最多有一个下一状态。
  
特点：与NFA相比，DFA的特征：确定性
    定义：move（si, a)函数都是 1对1 的；
    转换图 从一个状态出发的任2条边上的标记均不同；
    转换矩阵：M[si,a]是一个状态   且字母表不包括ε。
提示：正规式和有限自动机从两个侧面表示正规式。正规式是描述，自动机是识别。

4. 从正规式到词法分析器

构造词法分析器的一般方法和步骤：
1. 用正规式描述模式（为记号设计正规式）；
2. 为每个正规式构造一个NFA，它识别正规式所表示的正规集；
3. 将构造的NFA转换成等价的DFA，这一过程也被称为确定化；
4. 优化DFA，使其状态数最少，这一过程也被称为最小化；
5. 根据优化后的DFA构造词法分析器。

4.1 从正规式到NFA

Thompson 算法

4.2 从NFA到DFA

- smove(S, a)：从状态集S出发，标记为a的下一状态全体。与move(s, a)的唯一区别：用状态集取代状态
- ε-闭包(T)：从状态集T出发，不经任何字符达到的状态全体
- “子集法”构造DFA

4.3 最小化DFA

步骤如下：

初始划分：终态组，非终态组；

利用可区分的概念，反复分裂划分中的组Gi，直到不可再分裂；

由最终划分构造D'，关键是选代表和修改状态转移；

消除可能的死状态和不可达状态。

5.从DFA构造词法分析器

分类：表驱动型的词法分析器；直接编码的词法分析器

对比：

	表驱动	直接编码
分析器的速度	慢	快
程序与模式的关系	无关	有关
适合的编写方法	工具生成	手工编写
分析器的规模	较大	较小