第三章词法分析

最新推荐文章于 2020-11-01 20:19:21 发布

月1.2.3

最新推荐文章于 2020-11-01 20:19:21 发布

阅读量431

点赞数

CC 4.0 BY-SA版权

分类专栏：编译原理

本文链接：https://blog.youkuaiyun.com/a18864802638/article/details/79805537

编译原理专栏收录该内容

7 篇文章

订阅专栏

这一章主要讲了关于词法分析的词法分析器以及有限自动机和正则文法之间的相互转化。

词法分析器是将源程序输入之后进行处理输出单词符号的程序，通过手工方法也即是根据词法直接编程序来实现的就是有限自动机，在构造词法分析器的时候，扫描缓冲区中的通过起点指针和搜索指针来寻找单词，扫描器识别单词。单词的识别方法有很多种，其中有的单词有很多种意思，此时为了识别此单词是哪一种意思，要向前多读几个符号来进行准确的识别，这一种方法是超前搜索，需要注意的是识别后还要进行回退，保证工作顺利进行。第二种方法就是直接分析法，根据读来的第一个字符的种类分别转到各种子程序处理。这些子程序功能就是识别以相应字符开头的各种单词。第三种是状态转换图的方法，通过一张有限方向图来识别（接受）一定的符号串（单词）。状态转换图是有三部分组成：结点（有终态（双圆圈）、初态）、箭弧、箭弧上的标记。结点就是状态，通过箭弧上的标志（输入字符）进行状态的转换。

正则表达式与有限自动机，要想了解这两个知识就要名表一些基础的定义：

关于正则表达式：正规集就是具有相同特征的字放在一起组成一个集合，正规式就是一种形式化的方法来表示正规集，正规式的运算的优先级为：“ * ” > “ · ” > “ | ”。

关于有限自动机：一个确定有限自动机（DFA）M是一个五元式：M = (S, ∑, f, s0, F)，其中S是一个有限的状态集合，它的每个元素我们称为一个状态，∑是一个有穷的输入符号的字母表，它的每个元素我们称为一个输入字符，f是从 S×∑ →S的单值部分映射，s0是S的一个元素，为初始状态，它是唯一的，状态集合F是终止状态的集合，它是S的子集(可空)。其中DFA M的表示方法：状态转换矩阵表示法和状态转换图。DFA的功能就是对于∑*中任何字α，如果存在一条从初态结点到某个终态结点的道路，这条路上所有的标识符连成的字等于α ，则α可被DFA M所识别。然后就是非确定的有限自动机了，它与DFA的区别就在于f是从S×∑*→2^S 的部分映射，其中，2S表示S的幂集合（所有S的子集组成的集合）（f是非单值的，M是非确定），状态集合S0是初始状态集合，它是S的子集。表示方法也与DFA相同。
正则表达式与有限自动机是等价的。定理：对于任何∑上NFA M都可构造一个∑上的正规式V，使得 L(V) = L(M)。对于∑上的每一个正规式V，存在一个∑上的DFA M，使得L(M) = L(V) 。这三者之间是可以相互转化的。转化的方式通过习题进行解释。

我看了看习题，也主要是正则表达式和状态转换图的相互间的转化。由正则表达式先构造出一个NFA V，构造NFA的时候闭包是通过自环的形式呈现，连接通过状态的转化实现，或就是通过一个状态两种输入下都会到达同一个下一个状态。通过这个来实现构造状态转换图，之后就是NFA到DFA的转换了，就是将不确定的状态，也就是通过空字到达的状态可以去掉，先找到通过除空字外的所有的输入字符所到达的状态集合，然后各个集合在找到同空字到达的状态集合，这些通过空字的集合可以合并为一个集合，里面不确定元素就是空字了，这些通过空字到达的状态的集合都可以合并为一个集合就可以去除不确定状态，一个DFA了，确定化后就可以化简了，化简就是将等价的状态消去，也就是如果几个状态之间通过所有的输入字符所到达的状态为这几个状态的子集就可以进行化简了，就可以只留下这几个状态之中的一个，这就是通过正则表达式向DFA的转化过程了，以上全是自己的理解，可能和课本描述有出入，但是大体思想就是这样的了。然后就是通过文字描述给出正则表达式的题了，我只做了起哄的一部分，这种就是要通过自己的理解来做了。

除了习题上的这些知识之外，还有就是通过DFA向正则表达式的转化，这就需要通过消去结点来实现了，也就是以上描述的逆过程了，这就不在做赘述。
学习这一章呢，还是有很多的发现的，我这次知道先整理知识，再做课后题了，但是这里面也有很多的小插曲，做题的时候忽略了挺多的小细节，比如状态转化矩阵的实现其实不只有一种方法，做12题的时候的b图是已经确定化了的，这是我没有注意到的一点，确定化之后的状态图就是从一个个状态读入一个字符，只会进入一个下一个确定的状态，这是我没有注意到的，再就是通过和同学的交流我才发现自己有很多没有意识到的地方，比如确定化的实现原理，为什么这么做，就会找到确定化的状态图（以上都有解释到，这就不在详说），这也是后来我这才开始想的，还有一些复杂的正则表达式转化为状态图时候需要注意的地方也才是今天晚上刚刚看到，其实懂了原理也不一定能够会应用到实践中去。这么多东西都想不到还是自己思维问题吧，或者上课的时候确实有些知识死听课，不会自己试着转化为自己思想去理解和记东西，以后要试着改一下自己的毛病。

第三章 词法分析

第三章词法分析