第三章 词法分析

本章介绍了词法分析器的要求和设计方法,重点讲述了词法分析器的结构、单词符号的识别以及状态转换图法。同时,深入探讨了正规表达式与有限自动机,包括正规式的定义、等价性和相关性质,以及确定与非确定有限自动机的概念和等价性。课后习题和学习感想表明该章节内容有一定难度,需要更多实践和理解。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

3.1 对于词法分析器的要求

词法分析器的任务:从左至右逐个字符的对源程序进行扫描,产生一个个的单词符号,把作为字符串的源程序改造成为由单词符号串组成的程序。

词法分析器:执行词法分析的程序。输入:源程序。输出:单词符号

词法分析器的构造方法:手工方法:根据词法直接编程序(有限自动机)。自动方法:利用一些工具Lex。

单词符号:指语言中具有独立意义的最小的语法符号。

单词的种类:基本字(保留字,关键字)、标识符、常数、运算符、界符。

3.2 词法分析器的设计

3.2.1词法分析器的结构

 

3.2.2单词符号的识别

超前搜索:在单词识别的过程中,通过向前多读几个符号的形式,准确的进行单词的识别

一旦确定识别到的单词之后,需要进行扫描指针的回退,保证单词识别工作的顺利进行,例如: ++,&&,10e2, int a。

直接分析法:(1)以字母开头的(2)以小数点开头的(3)以数字开头的

3.2.3状态转换图法

状态转换图:一张有限方向图

状态转换图的功能:识别(接受)一定的符号串(单词)

状态转换图的结构:

       (1)结点:代表状态,用圆圈表示。

       (2)箭弧:状态之间用箭弧连接。

       (3)箭弧上的标记:代表在射出节点下可能出现的字符或字符串。

3.3  正规表达式与有限自动机

3.3.1正规式与正规集的定义(递归的定义方法)

(1)ε和φ是∑上的正规式,它们所表示的正规集分别为{ε}和φ

(2)任何a∈∑,是∑上的一个正规式,他所表示的正规集为{ a }

(3)假定U和V都是∑上的正规式,他们所表示的正规集分别记为L(U)和L(V),那么

(a) (U|V)是正规式,所表示的正规集为L(U)∪L(V)

       (b)(UV)是正规式,所表示的正规集为L(U) · L(V)(连接积)

       (c)(U)*是正规式,所表示的正规集为 (L(U))*(闭包)

仅由有限次使用(1)(2)(3)所得到的表达式才是∑上的正规式,仅由这些正规式所表示的字集才是∑上的正规集。

3.3.2两个正规式的等价

若两个正规式U和V所表示的正规集相同,则认为二者等价,记为:U = V

3.3.3正规式的性质

设U,V,W是上的∑正规式,则

(1) U | V = V | U                  或的交换律

(2) U | ( V|W ) = ( U|V ) | W  或的结合律

(3) U ( VW ) = ( UV ) W       连接积的结合律

(4) U ( V | W ) = ( UV ) | ( UW )    分配律

    ( V | W ) U = VU | WU      

(5) εU = Uε = U   

3.3.4有限自动机

把状态转换图再形式化一下及所谓的有限自动机有两种:确定的有限自动机(DFA)和非确定的有限自动机(NFA)。

确定的有限自动机(DFA)定义:一个确定有限自动机(DFA)M是一个五元式:M = (S,∑, f, s0, F),其中S是一个有限的状态集合,它的每个元素我们称为一个状态∑是一个有穷的输入符号的字母表,它的每个元素我们称为一个输入字符f是从 S×∑ →S的单值部分映射s0是S的一个元素,为初始状态,它是唯一的状态集合F是终止状态的集合,它是S的子集(可空)。

非确定的有限自动机(NFA)定义:一个非确定有限自动机(NFA)M是一个五元式M = (S,∑, f, S0, F),其中S是一个有限的状态集合,它的每个元素我们称为一个状态∑是一个有限的输入符号的字母表,它的每个元素我们称为一个输入字符f是从S×∑*→2S 的部分映射,其中,2S表示S的幂集合(所有S的子集组成的集合)(f是非单值的àM是非确定)状态集合S0是初始状态集合,它是S的子集状态集合F是终止状态的集合,它是S的子集。

有限自动机的等价:对任何两个有限的自动机M1和M2,若有L(M1)=L(M2),则称M1与M2等价。

课后习题


感想:

这一章的重点在于有限自动机,包括将有限自动机的状态图确定化和最少化,构造正规式相应的DFA等等,套用基本的解题格式与思路。这一章较上一章较难,概念上有限自动机比较难理解,算法也有一定的难度。课后习题也未全部弄懂,还需自己多加深理解。

### 词法分析的基本概念 词法分析是编译过程的第一阶段,其主要任务是从字符序列中识别出一个个具有语义的**单词符号(token)**。这些单词通常包括关键字、标识符、常量、运算符和界符等。词法分析器(也称为扫描器)负责将输入的字符流转换为标记流[^1]。 在这一过程中,词法分析器会忽略源程序中的空白字符、注释等内容,并根据语言定义的规则对输入进行划分。例如,在 PL/0 编程语言中,词法分析需要识别出诸如 `begin`、`end` 这样的保留字,以及变量名、数字常量等[^2]。 ### 正则表达式与有限自动机 为了高效地识别这些单词,通常使用**正则表达式(Regular Expressions)**来描述每种类型单词的形式。正则表达式可以被转换为等价的**确定性有限自动机(DFA)**或**非确定性有限自动机(NFA)**,从而用于实际的匹配过程。例如,一个简单的整数常量可以用如下正则表达式表示: ```regex [0-9]+ ``` 该表达式表示由一个或多个数字组成的字符串。通过构造对应的 DFA,可以在输入流中快速定位并提取此类模式[^1]。 ### 状态转换图的设计 状态转换图(State Transition Diagram)是一种图形化的方法,用来表示词法分析器如何从一种状态转移到另一种状态以识别不同的单词。每个节点代表一个状态,边上的标签指示了触发转移的字符条件。设计状态图时,需要注意处理最长匹配原则和优先级问题,确保正确区分相似的模式,比如区分关键字 `if` 和可能的标识符 `iff` 或 `ifdef`[^1]。 ### 实现方法与工具支持 实现词法分析的方式主要有两种:手动编写和利用工具自动生成。对于教学用途或小型项目,可以直接用高级语言如 C/C++、Java 或 Python 手动编码实现;而对于大型工业级应用,则更倾向于使用像 Lex/Flex 这样的工具生成器。它们接受一组正则表达式的定义作为输入,并输出相应的词法分析器代码[^1]。 例如,下面是一个简化版的 Java 片段,用于识别基本的标识符和数字: ```java public class Lexer { private String input; private int position; public Token nextToken() { // 跳过空格 while (position < input.length() && Character.isWhitespace(input.charAt(position))) { position++; } if (position >= input.length()) return new Token("EOF"); char currentChar = input.charAt(position); // 处理数字 if (Character.isDigit(currentChar)) { StringBuilder sb = new StringBuilder(); while (position < input.length() && Character.isDigit(input.charAt(position))) { sb.append(input.charAt(position)); position++; } return new Token("NUMBER", sb.toString()); } // 处理字母开头的标识符 if (Character.isLetter(currentChar)) { StringBuilder sb = new StringBuilder(); while (position < input.length() && (Character.isLetterOrDigit(input.charAt(position)))) { sb.append(input.charAt(position)); position++; } String value = sb.toString(); if ("if".equals(value) || "then".equals(value)) { // 检查是否为关键字 return new Token("KEYWORD", value); } else { return new Token("IDENTIFIER", value); } } // 其他情况视为单个字符的操作符或分隔符 return new Token("OPERATOR_OR_DELIMITER", String.valueOf(currentChar)); } } ``` 此示例展示了如何逐字符读取输入并构建 token 流。当然,真实环境下的实现会更加复杂,需考虑更多边界情况及性能优化[^1]。 ### 错误处理机制 由于词法分析面对的是原始输入文本,因此不可避免地会遇到非法字符或无法识别的模式。此时,良好的错误恢复策略至关重要。常见做法包括跳过未知字符、报告错误位置及尝试猜测用户的意图等。此外,还应提供详细的诊断信息帮助开发者定位问题所在[^1]。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值