第三章 词法分析

         这一章主要讲了关于词法分析的词法分析器以及有限自动机和正则文法之间的相互转化
      词法分析器是将源程序输入之后进行处理输出单词符号的程序,通过手工方法也即是根据词法直接编程序来实现的就是有限自动机,在构造词法分析器的时候,扫描缓冲区中的通过起点指针和搜索指针来寻找单词,扫描器识别单词。单词的识别方法有很多种,其中有的单词有很多种意思,此时为了识别此单词是哪一种意思,要向前多读几个符号来进行准确的识别,这一种方法是超前搜索,需要注意的是识别后还要进行回退,保证工作顺利进行。第二种方法就是直接分析法,根据读来的第一个字符的种类分别转到各种子程序处理。这些子程序功能就是识别以相应字符开头的各种单词。第三种是状态转换图的方法,通过一张有限方向图来识别(接受)一定的符号串(单词)。状态转换图是有三部分组成:结点(有终态(双圆圈)、初态)、箭弧、箭弧上的标记。结点就是状态,通过箭弧上的标志(输入字符)进行状态的转换。
          正则表达式与有限自动机,要想了解这两个知识就要名表一些基础的定义:
      关于正则表达式:正规集就是具有相同特征的字放在一起组成一个集合,正规式就是一种形式化的方法来表示正规集,正规式的运算的优先级为:“ * ”  >  “ · ”   >  “ | ”。
        关于有限自动机:一个确定有限自动机(DFA)M是一个五元式:M = (S, ∑, f, s0, F),其中S是一个有限的状态集合,它的每个元素我们称为一个状态,∑是一个有穷的输入符号的字母表,它的每个元素我们称为一个输入字符,f是从 S×∑ →S的单值部分映射,s0是S的一个元素,为初始状态,它是唯一的,状态集合F是终止状态的集合,它是S的子集(可空)。其中DFA M的表示方法:状态转换矩阵表示法和状态转换图。DFA的功能就是对于∑*中任何字α,如果存在一条从初态结点到某个终态结点的道路,这条路上所有的标识符连成的字等于α ,则α可被DFA M所识别。然后就是非确定的有限自动机了,它与DFA的区别就在于f是从S×∑*→2^S 的部分映射,其中,2S表示S的幂集合(所有S的子集组成的集合)(f是非单值的,M是非确定),状态集合S0是初始状态集合,它是S的子集。表示方法也与DFA相同。
          正则表达式与有限自动机是等价的。定理:对于任何∑上NFA M都可构造一个∑上的正规式V,使得  L(V) = L(M)。对于∑上的每一个正规式V,存在一个∑上的DFA M,使得L(M) = L(V) 。这三者之间是可以相互转化的。转化的方式通过习题进行解释。
        
   我看了看习题,也主要是正则表达式和状态转换图的相互间的转化。由正则表达式先构造出一个NFA V,构造NFA的时候闭包是通过自环的形式呈现,连接通过状态的转化实现,或就是通过一个状态两种输入下都会到达同一个下一个状态。通过这个来实现构造状态转换图,之后就是NFA到DFA的转换了,就是将不确定的状态,也就是通过空字到达的状态可以去掉,先找到通过除空字外的所有的输入字符所到达的状态集合,然后各个集合在找到同空字到达的状态集合,这些通过空字的集合可以合并为一个集合,里面不确定元素就是空字了,这些通过空字到达的状态的集合都可以合并为一个集合就可以去除不确定状态,一个DFA了,确定化后就可以化简了,化简就是将等价的状态消去,也就是如果几个状态之间通过所有的输入字符所到达的状态为这几个状态的子集就可以进行化简了,就可以只留下这几个状态之中的一个,这就是通过正则表达式向DFA的转化过程了,以上全是自己的理解,可能和课本描述有出入,但是大体思想就是这样的了。然后就是通过文字描述给出正则表达式的题了,我只做了起哄的一部分,这种就是要通过自己的理解来做了。
        除了习题上的这些知识之外,还有就是通过DFA向正则表达式的转化,这就需要通过消去结点来实现了,也就是以上描述的逆过程了,这就不在做赘述。
        学习这一章呢,还是有很多的发现的,我这次知道先整理知识,再做课后题了,但是这里面也有很多的小插曲,做题的时候忽略了挺多的小细节,比如状态转化矩阵的实现其实不只有一种方法,做12题的时候的b图是已经确定化了的,这是我没有注意到的一点,确定化之后的状态图就是从一个个状态读入一个字符,只会进入一个下一个确定的状态,这是我没有注意到的,再就是通过和同学的交流我才发现自己有很多没有意识到的地方,比如确定化的实现原理,为什么这么做,就会找到确定化的状态图(以上都有解释到,这就不在详说),这也是后来我这才开始想的,还有一些复杂的正则表达式转化为状态图时候需要注意的地方也才是今天晚上刚刚看到,其实懂了原理也不一定能够会应用到实践中去。这么多东西都想不到还是自己思维问题吧,或者上课的时候确实有些知识死听课,不会自己试着转化为自己思想去理解和记东西,以后要试着改一下自己的毛病。


### 词法分析的基本概念 词法分析是编译过程的第一阶段,其主要任务是从字符序列中识别出一个个具有语义的**单词符号(token)**。这些单词通常包括关键字、标识符、常量、运算符和界符等。词法分析器(也称为扫描器)负责将输入的字符流转换为标记流[^1]。 在这一过程中,词法分析器会忽略源程序中的空白字符、注释等内容,并根据语言定义的规则对输入进行划分。例如,在 PL/0 编程语言中,词法分析需要识别出诸如 `begin`、`end` 这样的保留字,以及变量名、数字常量等[^2]。 ### 正则表达式与有限自动机 为了高效地识别这些单词,通常使用**正则表达式(Regular Expressions)**来描述每种类型单词的形式。正则表达式可以被转换为等价的**确定性有限自动机(DFA)**或**非确定性有限自动机(NFA)**,从而用于实际的匹配过程。例如,一个简单的整数常量可以用如下正则表达式表示: ```regex [0-9]+ ``` 该表达式表示由一个或多个数字组成的字符串。通过构造对应的 DFA,可以在输入流中快速定位并提取此类模式[^1]。 ### 状态转换图的设计 状态转换图(State Transition Diagram)是一种图形化的方法,用来表示词法分析器如何从一种状态转移到另一种状态以识别不同的单词。每个节点代表一个状态,边上的标签指示了触发转移的字符条件。设计状态图时,需要注意处理最长匹配原则和优先级问题,确保正确区分相似的模式,比如区分关键字 `if` 和可能的标识符 `iff` 或 `ifdef`[^1]。 ### 实现方法与工具支持 实现词法分析的方式主要有两种:手动编写和利用工具自动生成。对于教学用途或小型项目,可以直接用高级语言如 C/C++、Java 或 Python 手动编码实现;而对于大型工业级应用,则更倾向于使用像 Lex/Flex 这样的工具生成器。它们接受一组正则表达式的定义作为输入,并输出相应的词法分析器代码[^1]。 例如,下面是一个简化版的 Java 片段,用于识别基本的标识符和数字: ```java public class Lexer { private String input; private int position; public Token nextToken() { // 跳过空格 while (position < input.length() && Character.isWhitespace(input.charAt(position))) { position++; } if (position >= input.length()) return new Token("EOF"); char currentChar = input.charAt(position); // 处理数字 if (Character.isDigit(currentChar)) { StringBuilder sb = new StringBuilder(); while (position < input.length() && Character.isDigit(input.charAt(position))) { sb.append(input.charAt(position)); position++; } return new Token("NUMBER", sb.toString()); } // 处理字母开头的标识符 if (Character.isLetter(currentChar)) { StringBuilder sb = new StringBuilder(); while (position < input.length() && (Character.isLetterOrDigit(input.charAt(position)))) { sb.append(input.charAt(position)); position++; } String value = sb.toString(); if ("if".equals(value) || "then".equals(value)) { // 检查是否为关键字 return new Token("KEYWORD", value); } else { return new Token("IDENTIFIER", value); } } // 其他情况视为单个字符的操作符或分隔符 return new Token("OPERATOR_OR_DELIMITER", String.valueOf(currentChar)); } } ``` 此示例展示了如何逐字符读取输入并构建 token 流。当然,真实环境下的实现会更加复杂,需考虑更多边界情况及性能优化[^1]。 ### 错误处理机制 由于词法分析面对的是原始输入文本,因此不可避免地会遇到非法字符或无法识别的模式。此时,良好的错误恢复策略至关重要。常见做法包括跳过未知字符、报告错误位置及尝试猜测用户的意图等。此外,还应提供详细的诊断信息帮助开发者定位问题所在[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值