学习书籍是中文第三版《精通正则表达式》,作者:(美国)佛瑞德 (Friedl.J.E.F) 译者:余晟
第1章:正则表达式入门
正则表达式是强大便捷高效的文本处理工具,可以对文本进行增加,删除,分离,叠加,插入和修整各种类型的文本和数据。
提出一个例子:在多个文件中确保每一行中‘setSize()’和‘resetSize()’的次数一样多,考虑大小写,如果行数有几万行,明显就不适合采用文本查找的办法去做。
小例子:
^cat$匹配只包含cat的行^$匹配空行
1.1 字符组[]
- 字符组(Character Classes)在方括号
[]中用来匹配期望的单个字符,[]中存放多个字母如[abcdef]就是匹配adcdef中任意字符 - 字符组元字符如
-连字符,如[0-9]就是匹配0-9数字任一个,
- ”-“允许多重位置,如[0-9a-zA-Z]
- “-“是看位置的,如果不在字符组内部,如[-09],[az-],那”-“就是一个普通的连字符号
- 在字符组中正则元字符如
?,.,!都会被当做普通字符处理。
- 比如正则表达式
a..b就是要匹配开头是a,结尾是b,中间两任意字符的字符串,而在正则表达式[a..b]中就是要匹配字符串”a..b”而已,这里的.被当成了普通字符。
- 比如正则表达式
1.2 排除型字符组^
^是脱字符的意思,如果用在字符组中作用就是排除某些字符- 如
[^1-6]匹配1至6以外的字符 - 如
q[^u]匹配开头是q,第二个字母除了u的字符串,排除型字符组也要匹配一个字符(注意:空格也算字符,但是回车符可能会被egrep这样的命令过滤掉),所以若一行中只有这一个词sdhq是不能被匹配的
1.3 用点号.匹配任意字符
03.19.76可匹配03/19/76或者03-19-76或03.19.76
但也可以使用03[./-]19[./-]76更精确些
1.4 多选结构|
- 如
gr(a|e)y匹配gray或者grey,字符组gr[ae]y也匹配gray或者grey,但是含义是不同的,字符组只匹配单个字符,多选结构会匹配完整的正则表达式 - 如
gr(ee|ai)n和gr[aei]n - 如
^(From|Subject|Date):就是匹配如From:tom Subject:this Data:2016的文本信息 - 忽略大小写
egrep -i
1.5 单词分界符
单词分解符\<,\>,\b,不同于^和$,他们是检索行的起始位置,结束位置。
\<检索单词的开始位置,\>检索单词的结束位置,如grep '\<sad\>' reg.md就是检索reg.md里面的sad单词所在行并高亮显示\b单词边界,如grep '\bsad\b' reg.md也是检索单词sad所在行并高亮显示\B非单词边界,比如要检索单词中包含sa,可如下:grep 'sa\B'那么诸如sad,sand等都会被匹配
1.6 量词:可选项元素?
- 如
colou?r匹配color和colour,元字符?代表可选项,加在一个字符后表示可以出现这个字符或者不出现,也可以加在一个括号后,表示该括号内的整体都是可选的 - 匹配7月4日的文本,月份可写成July、Jul,日期可写成fourth、4t、4,表达式可写成
(July|Jul) (fourh|4th|4),July? (fourh|4(th)?)
1.7 量词:重复出现*``+
*表示之前紧邻的元素出现0次或者更多次。记忆方法:*轮廓是圆的所以是0到多次,+中间是个1所以是1到多次,+表示之前紧邻的元素出现1次或更多次,- 例如匹配1个以上空格的表达式
egrep '<tag +type' reg.md,当然空格也可以写\s,检索结果是
<tag type='button' />
<tag type='input' />
- 这在寻找html标签时候非常重要,因为不知道用户会放置多少个空格
比如匹配<HR size=1>其中的size属性是可选的中间的空格会出现任意的情况,可以写这样的表达式,为了让空格能显示,使用\s来表示空格<HR\s+(size\s*=\s*[0-9]\s*)?\s*>
1.8 规定重现次数发范围:区间
{min,max}如[0-9]{0,9}匹配0到9个数字{次数},如[0-9]{4}匹配4个数字{min,}如[0-9]{4,}匹配4个以上的数字
1.9括号及反向引用
- 括号已知有两种作用
- 限制多选项的范围;如
(option|opt) - 受
*、+、?等量词的作用;如start(ed)*
- 限制多选项的范围;如
- 括号的第三种作用:反向引用
- 反向引用是正则表达式的一种特性,它允许我们匹配与表达式先前部分匹配的同样的文本;
- 如寻找重复单词
the the可以写表达式\<the +the\>,但是如果要穷举所有重复的单词呢?采用如下([A-Za-z]) +\1,其中\1表示的是第一个括号()内的内容,以此内推\2,\3表示第二个,第三个括号内内容
1.10 转义
- 元字符小结:以上内容主要学到的元字符有字符组
[]、连字符(只有在字符组合适位置才是连字符)-、排除字符(字符组内)或者脱字符(字符组外)^、单词分解符\< \> \b \B、量词字符* + ? {},括号(),点号. - 如果需要匹配的字符是元字符本身,那么就需要采用转义字符
\,如\.那么就是匹配点本身;转义字符适用所有元字符,但在字符组内无效 \加上非元字符,可能组成特定的元字符序列,如\<\加上任意其他字符,默认情况就是匹配此字符(即\被忽略了)
1.11 基础知识扩展
- 我们要关注支持正则表达式的编程语言的差异
- 匹配符合要求的文本,同时忽略符合要求的文本
- 匹配变量名(变量名常见规定是由字母,数字,下划线组成,不能以数字开头,假设限定长度32字符),表达式:
[a-zA-Z_][a-zA-Z0-9_]{0,31} - 匹配引号内的字符串,表达式:
"[^"]*";如果可以是单引号:('|")[^"]*\1 - 匹配美元金额,表达式粗糙版($开头,小数点后可跟两位)
\$[0-9]+(\.[0-9][0-9])? - HTML/HTTP URL 表达式粗糙版:
\<http://[-a-z0-9_.:]+/[-a-z0-9:@&?=+,.!/~*%$]*\.html\> - HTML Tag 表达式粗糙版:
<.*> - 表示时刻;如”9:17 am“或者”12:30 pm“,十二小时制表达式:
(1[012]|[1-9]):([0-5][0-9]) (am|pm)二十四小时制:(0?[0-9]|1[0-9]|2[0-3]):[0-5][0-9] (am|pm)其中0?[0-9]|1[0-9]可合并为[01]?[0-9] - *
本文介绍了正则表达式的基础知识,包括字符组、排除型字符组、多选结构、量词等内容,并通过实例展示了如何使用正则表达式进行文本处理。
2万+

被折叠的 条评论
为什么被折叠?



