lex 命令中的扩展的正则表达式

扩展正则表达式详解
本文详细介绍了扩展正则表达式的使用方法,包括文本字符、运算符及其在不同上下文中如何工作。通过丰富的示例解释了如何匹配特定的字符串模式。

在 lex 说明文件中指定扩展的正则表达式与在 sed 或者 ed 命令中所使用的方法相似。

扩展的正则表达式指定了要匹配的字符串的集合。表达式包含文本字符和运算符字符。文本字符与正在被比较的字符串中的相应字符匹配。运算符字符指定重复次数、选项和其他功能。

数字和字母表的字母被认为是文本字符。例如,扩展的正则表达式 integer 与字符串 integer 匹配,表达式 a57D 搜索字符串 a57D

运算符

下面的列表描述了如何使用运算符指定扩展的正则表达式:
Character
与字符 Character

匹配。示例:a 与文字字符 a 匹配;b 与文字字符 b 匹配,而 c 与文字字符 c 匹配。

"String"
匹配引号中扩起来的字符串,即使字符串包含运算符。

示例:要阻止 lex 命令将 $(美元符号)解释为运算符,请将该符号括在引号中。

\Character 或 \Digits
转义字符。当位于字符串中使用的字符类运算符之前时,\ 字符表明运算符符号代表文字字符,而不是运算符。有效转义序列包括:
\a
提醒
\b
退格
\f
换页
\n
换行符(不要在表达式中使用真正的换行符。)
\r
返回
\t
跳格
\v
纵向制表符
\\
反斜杠
\Digits
其编码由 Digits 字符串指定的一位、两位或者三位八进制整数所表示的字符。
\xDigits
其编码由 Digits 字符串指定的十六进制字符序列所表示的字符。

当 \ 字符位于某字符前面,而该字符不在前面的转义序列列表中,那么 lex 命令按字面解释字符。

示例:\c 被解释为 c 字符不变,[\^abc] 表示包含字符 ^abc 的字符类。

注: 千万不要在 lex 命令中使用 \0 或者 \x0
[List]
基于 lex 命令被调用的语言环境,与被扩起来的范围 ([x-y]) 或者被扩起来的列表 ([xyz]) 中的任一字符匹配。所有运算符符号(除了下述例外)在括号表达式中失去它们的特殊含义:-(短划线)、^(插入标记)和\(反斜杠)。

示例:[abc-f] 与 en_US 语言环境中的 abcde 或 f 匹配。

[:Class:]
如当前语言环境中的 LC_TYPE 类别中所定义的,与属于 [::] 定界符之间所指定的字符类的任何字符匹配。下面的字符类名称被所有的语言环境所支持:
alnum   cntrl  lower   space

alpha   digit   print  upper

blank  graph   punct   xdigit

lex 命令还识别用户定义的字符类名。[::] 运算符仅在 [] 表达式中有效。

示例:在当前语言环境中,[[:alpha:]] 与 alpha 字符类中的任何都字符匹配,但是 [:alpha:] 仅与字符 :alp 和 h 匹配。

[.CollatingSymbol.]
作为单个字符与 [..] 定界符中指定的整理符号匹配。[..] 运算符仅在 [ ] 表达式中有效。对于当前语言环境,整理符号必须是有效整理符号。

示例:[[.ch.]] 与 c 和 h 都匹配,但是 [ch] 则与 c 或 h 匹配。

[=CollatingElement=]
与 [==] 定界符中指定的整理元素以及属于其等价类的所有整理元素匹配。[==] 运算符仅在 [] 表达式中有效。

示例: 如果 w 和 v 属于同一个等价类,那么 [[=w=]] 与 [wv] 相同并且与 w 或者 v 匹配。如果 w 不属于等价类,那么 [[=w=]] 仅与 w 匹配。

[^Character]
与除了 ^(插入标记)后的字符之外的任何字符匹配。结果字符类仅由单字节字符组成。^ 符号后面的字符可以是多字节字符。但是,要此运算符与多字节字符匹配,您必须在定义部分将 %h 和 %m 设为大于零。

示例:[^c] 与 c 之外的任何字符匹配。

CollatingElement-CollatingElement
在字符类中,指示为当前语言环境定义的整理顺序中的字符范围。范围必须为升序。结束范围点必须核对与起始范围点相等或者更高。因为范围基于当前语言环境的整理顺序,所给的范围可能与不同的字符匹配,这取决于调用 lex 命令的语言环境。
Expression?
与 ? 运算符前紧挨着的表达式的零个或一个具体值匹配。

示例:ab?c 与 ac 或 abc 匹配。

句点字符 (.)
与换行符以外的任何字符匹配。为了使句点字符 (.) 与多字节字符匹配,必须在 lex 说明文件的定义部分中将 %z 设为大于 0。如果未设置 %z,那么句点字符 (.) 仅与单字节字符匹配。
Expression*
与 * 运算符之前紧挨着的表达式的零个或更多具体值匹配。例如,a* 为任意数目(包括零个)连续的 a 字符。在复杂表达式中与零个具体值匹配的作用更明显。

示例:表达式 [A-Za-z][A-Za-z0-9]* 指示以字母字符开头的所有字母数字字符串,包括仅为一个字母字符的字符串。您能使用该表达式识别使用计算机语言的标识。

Expression+
与 + 运算符之前紧挨着的模式的一个或更多具体值匹配。

示例:a+ 与一个或者更多 a 的实例匹配。同样,[a-z]+ 与所有小写字母字符串匹配。

Expression|Expression
指示与 |(管道)运算符之前或之后的表达式匹配。

示例:ab|cd 与 ab 或者 cd 匹配。

(Expression)
与圆括号中的表达式匹配。()(圆括号)运算符用于分组,并使圆括号中的表达式被读入 yytext 数组。圆括号中的组可用于代替任何其他模式的任何单个字符。

示例:(ab|cd+)?(ef)* 与诸如以下的字符串匹配:abefefefefefcdef 或者 cddd;但是与 abcabcd 或者 abcdef 不匹配。

^Expression
仅当 Expression 在行起始处且 ^(插入标记)运算符是表达式中的第一个字符时指示匹配。

示例:^h 与行首的 h 匹配。

Expression$
仅当 Expression 在行末尾且 $(美元符号)运算符是表达式的最后一个字符时指示匹配。

示例:h$ 与行尾的 h 匹配。

Expression1/Expression2
仅当 Expression2 紧跟在 Expression1 之后时指示匹配。/(斜杠)运算符仅将第一个表达式读入 yytext 数组。

示例:ab/cd 与字符串 ab 匹配,但后面必须跟有 cd,然后才会将 ab 读到 yytext 数组。

注: 在单个扩展的正则表达式中仅能使用一个 / 尾部上下文运算符。^(插入标记)和 $(美元符号)运算符不可与 / 运算符用于同一个表达式,因为它们指示尾部上下文的特殊情况。
{DefinedName}
与您在定义部分定义的名称匹配。

示例:如果您定义 D 为数字,那么 {D} 匹配所有的数字。

{Number1,Number2}
与它前面紧挨着的模式的 Nubmer1 到 Number2 的具体值匹配。允许使用表达式 {Number} 和 {Number,},它们精确匹配表达式前的模式的 Number 的具体值。

示例:xyz{2,4} 与 xyzxyz、xyzxyzxyz 或 xyzxyzxyzxyz 匹配。这有别于 +* 和 ? 运算符,因为这些运算符仅与紧挨着前面的字符匹配。要仅与时间间隔表达式前的字符匹配,请使用分组运算符。例如,xy(z{2,4}) 与 xyzz、xyzzz 或者 xyzzzz 匹配。

<StartCondition>
只有在词法分析器位于指示的启动条件中时,才执行关联的操作。

示例:如果行首是启动条件 ONE,那么 ^(插入标记)运算符等于表达式 <ONE>

要将运算符字符作为文本字符使用,请使用下述之一的转义序列:" "(双引号)或者 \(反斜杠)。" " 运算符表示其中包含的即为文本。那么,下面的示例与字符串 xyz++ 匹配:
xyz"++"

可以给字符串的一部分加引号。给普通的文本字符加引号不起作用。例如,下面的表达式与前面的示例相等:

"xyz++"

要确保文本被解释为文本,请给不是字母或者数字的所有字符加引号。

将运算符字符转换为文本字符的另一种方法是在运算符字符前面加上 \(反斜杠)字符。例如,下面的表达式等价于上述示例:
xyz\+\+
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值