学习书籍是中文第三版《精通正则表达式》,作者:(美国)佛瑞德 (Friedl.J.E.F) 译者:余晟
第1章:正则表达式入门
正则表达式是强大便捷高效的文本处理工具,可以对文本进行增加,删除,分离,叠加,插入和修整各种类型的文本和数据。
提出一个例子:在多个文件中确保每一行中‘setSize()’和‘resetSize()’的次数一样多,考虑大小写,如果行数有几万行,明显就不适合采用文本查找的办法去做。
小例子:
^cat$
匹配只包含cat的行^$
匹配空行
1.1 字符组[]
- 字符组(Character Classes)在方括号
[]
中用来匹配期望的单个字符,[]
中存放多个字母如[abcdef]
就是匹配adcdef中任意字符 - 字符组元字符如
-
连字符,如[0-9]就是匹配0-9数字任一个,
- ”-“允许多重位置,如[0-9a-zA-Z]
- “-“是看位置的,如果不在字符组内部,如[-09],[az-],那”-“就是一个普通的连字符号
- 在字符组中正则元字符如
?
,.
,!
都会被当做普通字符处理。
- 比如正则表达式
a..b
就是要匹配开头是a,结尾是b,中间两任意字符的字符串,而在正则表达式[a..b]
中就是要匹配字符串”a..b”而已,这里的.
被当成了普通字符。
- 比如正则表达式
1.2 排除型字符组^
^
是脱字符的意思,如果用在字符组中作用就是排除某些字符- 如
[^1-6]
匹配1至6以外的字符 - 如
q[^u]
匹配开头是q,第二个字母除了u的字符串,排除型字符组也要匹配一个字符(注意:空格也算字符,但是回车符可能会被egrep这样的命令过滤掉),所以若一行中只有这一个词sdhq
是不能被匹配的
1.3 用点号.
匹配任意字符
03.19.76
可匹配03/19/76或者03-19-76或03.19.76
但也可以使用03[./-]19[./-]76
更精确些
1.4 多选结构|
- 如
gr(a|e)y
匹配gray或者grey,字符组gr[ae]y
也匹配gray或者grey,但是含义是不同的,字符组只匹配单个字符,多选结构会匹配完整的正则表达式 - 如
gr(ee|ai)n
和gr[aei]n
- 如
^(From|Subject|Date):
就是匹配如From:tom Subject:this Data:2016
的文本信息 - 忽略大小写
egrep -i
1.5 单词分界符
单词分解符\<
,\>
,\b
,不同于^
和$
,他们是检索行的起始位置,结束位置。
\<
检索单词的开始位置,\>
检索单词的结束位置,如grep '\<sad\>' reg.md
就是检索reg.md里面的sad单词所在行并高亮显示\b
单词边界,如grep '\bsad\b' reg.md
也是检索单词sad所在行并高亮显示\B
非单词边界,比如要检索单词中包含sa,可如下:grep 'sa\B'
那么诸如sad,sand等都会被匹配
1.6 量词:可选项元素?
- 如
colou?r
匹配color和colour,元字符?
代表可选项,加在一个字符后表示可以出现这个字符或者不出现,也可以加在一个括号后,表示该括号内的整体都是可选的 - 匹配7月4日的文本,月份可写成July、Jul,日期可写成fourth、4t、4,表达式可写成
(July|Jul) (fourh|4th|4)
,July? (fourh|4(th)?)
1.7 量词:重复出现*``+
*
表示之前紧邻的元素出现0次或者更多次。记忆方法:*
轮廓是圆的所以是0到多次,+
中间是个1所以是1到多次,+
表示之前紧邻的元素出现1次或更多次,- 例如匹配1个以上空格的表达式
egrep '<tag +type' reg.md
,当然空格也可以写\s
,检索结果是
<tag type='button' />
<tag type='input' />
- 这在寻找html标签时候非常重要,因为不知道用户会放置多少个空格
比如匹配<HR size=1>
其中的size属性是可选的中间的空格会出现任意的情况,可以写这样的表达式,为了让空格能显示,使用\s
来表示空格<HR\s+(size\s*=\s*[0-9]\s*)?\s*>
1.8 规定重现次数发范围:区间
{min,max}
如[0-9]{0,9}
匹配0到9个数字{次数}
,如[0-9]{4}
匹配4个数字{min,}
如[0-9]{4,}
匹配4个以上的数字
1.9括号及反向引用
- 括号已知有两种作用
- 限制多选项的范围;如
(option|opt)
- 受
*
、+
、?
等量词的作用;如start(ed)*
- 限制多选项的范围;如
- 括号的第三种作用:反向引用
- 反向引用是正则表达式的一种特性,它允许我们匹配与表达式先前部分匹配的同样的文本;
- 如寻找重复单词
the the
可以写表达式\<the +the\>
,但是如果要穷举所有重复的单词呢?采用如下([A-Za-z]) +\1
,其中\1
表示的是第一个括号()
内的内容,以此内推\2
,\3
表示第二个,第三个括号内内容
1.10 转义
- 元字符小结:以上内容主要学到的元字符有字符组
[]
、连字符(只有在字符组合适位置才是连字符)-
、排除字符(字符组内)或者脱字符(字符组外)^
、单词分解符\< \> \b \B
、量词字符* + ? {}
,括号()
,点号.
- 如果需要匹配的字符是元字符本身,那么就需要采用转义字符
\
,如\.
那么就是匹配点本身;转义字符适用所有元字符,但在字符组内无效 \
加上非元字符,可能组成特定的元字符序列,如\<
\
加上任意其他字符,默认情况就是匹配此字符(即\
被忽略了)
1.11 基础知识扩展
- 我们要关注支持正则表达式的编程语言的差异
- 匹配符合要求的文本,同时忽略符合要求的文本
- 匹配变量名(变量名常见规定是由字母,数字,下划线组成,不能以数字开头,假设限定长度32字符),表达式:
[a-zA-Z_][a-zA-Z0-9_]{0,31}
- 匹配引号内的字符串,表达式:
"[^"]*"
;如果可以是单引号:('|")[^"]*\1
- 匹配美元金额,表达式粗糙版($开头,小数点后可跟两位)
\$[0-9]+(\.[0-9][0-9])?
- HTML/HTTP URL 表达式粗糙版:
\<http://[-a-z0-9_.:]+/[-a-z0-9:@&?=+,.!/~*%$]*\.html\>
- HTML Tag 表达式粗糙版:
<.*>
- 表示时刻;如”9:17 am“或者”12:30 pm“,十二小时制表达式:
(1[012]|[1-9]):([0-5][0-9]) (am|pm)
二十四小时制:(0?[0-9]|1[0-9]|2[0-3]):[0-5][0-9] (am|pm)
其中0?[0-9]|1[0-9]
可合并为[01]?[0-9]
- *