2.1介绍
FA的转移图详细精确地定义了有限自动机所接受的单词的集合(L()),但不够直观。对于任一FA,还可以使用一种称为正则表达式(Regular Expression,RE)的符号表示法来描述其语言。通过RE描述的语言称为正则语言。
标点符号的RE(例如:: ; ?)与其本身的“拼写”相同,关键词的RE(例如:if while等)也是。
为了对更复杂的结构(整数/标识符)建模,需要一种表示法来实现循环边。
对上图所示FA而言,关键在于s2回到自身的转移。状态s2使得自动机的规格能够自支撑,即建立了一个规则,能够从一个现存的无符号整数派生一个新的无符号整数。(一个无符号整数或者为0,或者以非0数位开头,后接0或多个数位)
对于RE x,将x*表示为”x的零或多次出现“,*运算符称为柯林闭包(Kleene closure),或简称闭包。那么上述无符号整数的FA可以表示为:
0|(1|2|3|4|5|6|7|8|9)(0|1|2|3|4|5|6|7|8|9)*
2.11符号表示法的形式化
一个RE描述了一个定义在某个字母表上的字符串的集合,外加一个表示空串的字符
。对于一个给定的RE r 来说,将它规定的语言记作L(r)。
一个RE由三个基本操作构建而成:
1)选择 R|S,两个字符串集合的交替或并集。
2)连接 RS,R中任意一个元素后接S中任意一个元素所形成的所有字符串。
3)闭包 R*。
使用选择、连接和闭包,可以定义字母表上RE的集合:
1)如果a,那么a也是一个RE,表示仅包含a的集合。
2)如果r和s是RE,分别表示集合L(r)和L(s),那么r|s、rs、r*也是RE,分别表示集合L(r)和L(s)的并集或交替、连接、L(r)的闭包。
3)是一个RE,空串。
为消除二义性,括号具有最高优先级,接下来顺次为闭包、连接和选择。
缩写:[0...9]表示十进制数位数字的集合,这种表示可以写为(0|1|2|3|4|5|6|7|8|9)。
2.22正则表达式示例
1.标识符:一个字母字符后接0或多个字母数字字符:([A...Z]|[a...z])([A...Z]|[a...z]|[0...9])*,如果标识符长度限制,那么将*改成适当的数字即可。
2.无符号整数:0或一个非零数位后接多个数位:0|[1...9][0...9]*
3.无符号实数:(0|[1...9][0...9]*)(|.[0...9]*),第一部分表示整数的RE;其余部分或者产生空串,或者产生小数点后接0或多个数位。
程序设计语言通常将史书扩展为科学计数法:一个实数,后接一个E,后接一个整数指数
(0|[1...9][0...9]*)(|.[0...9]*)E(
|+|-)(0|[1...9][0...9]*)
4.求补运算:^c,即c相对于的补集。求补运算优先级高于*。
RE ” (^("|\n))* “ 可以识别形式正确的字符串,检测是否到达了一个字符串末尾(C和C++不允许源代码中一个字符串跨越多行)
5.注释://(^\n)*\n 分隔符//表示一个到当前输入行末尾结束的注释,\n为换行符。
多行注释从分隔符/*开始,以*/结束。
从状态s2到s3的转移:识别器已经看到了一个*字符,无论下一个字符是否为/,识别器都可以正确处理。
2.23闭包的性质
正则表达式在许多操作下是封闭的,即如果我们将操作应用到一个RE或一组RE,其结果仍然是RE。显而易见的例子:x和y的连接是xy,并集是x|y,x的闭包是x*。所有这些表达式也都是RE。
闭包性质确保了只要a和b都是RE,那么ab必然是RE。因而,任何可以应用于a或b的技术,都可以应用于ab,这其中也包括RE自动生成识别器的技术。