《精通正则表达式》学习笔记——第1章：正则表达式入门

最新推荐文章于 2025-11-25 08:44:41 发布

原创最新推荐文章于 2025-11-25 08:44:41 发布 · 489 阅读

CC 4.0 BY-SA版权

文章标签：

2 篇文章

订阅专栏

本文介绍了正则表达式的基础知识，包括字符组、排除型字符组、多选结构、量词等内容，并通过实例展示了如何使用正则表达式进行文本处理。

学习书籍是中文第三版《精通正则表达式》，作者：(美国)佛瑞德 (Friedl.J.E.F) 译者：余晟

正则表达式是强大便捷高效的文本处理工具，可以对文本进行增加，删除，分离，叠加，插入和修整各种类型的文本和数据。

提出一个例子：在多个文件中确保每一行中‘setSize()’和‘resetSize()’的次数一样多，考虑大小写，如果行数有几万行，明显就不适合采用文本查找的办法去做。

小例子：

字符组（Character Classes）在方括号[]中用来匹配期望的单个字符，[]中存放多个字母如[abcdef]就是匹配adcdef中任意字符
字符组元字符如-连字符，如[0-9]就是匹配0-9数字任一个，
- ”-“允许多重位置，如[0-9a-zA-Z]
- “-“是看位置的，如果不在字符组内部，如[-09]，[az-]，那”-“就是一个普通的连字符号
在字符组中正则元字符如?,.,!都会被当做普通字符处理。
- 比如正则表达式a..b就是要匹配开头是a，结尾是b，中间两任意字符的字符串，而在正则表达式 [a..b]中就是要匹配字符串”a..b”而已，这里的.被当成了普通字符。

^是脱字符的意思，如果用在字符组中作用就是排除某些字符
如[^1-6]匹配1至6以外的字符
如q[^u]匹配开头是q，第二个字母除了u的字符串，排除型字符组也要匹配一个字符(注意：空格也算字符，但是回车符可能会被egrep这样的命令过滤掉)，所以若一行中只有这一个词sdhq是不能被匹配的

03.19.76可匹配03/19/76或者03-19-76或03.19.76
但也可以使用03[./-]19[./-]76更精确些

如gr(a|e)y匹配gray或者grey，字符组gr[ae]y也匹配gray或者grey，但是含义是不同的，字符组只匹配单个字符，多选结构会匹配完整的正则表达式
如gr(ee|ai)n和gr[aei]n
如^(From|Subject|Date):就是匹配如From:tom Subject:this Data:2016的文本信息
忽略大小写egrep -i

单词分解符\<,\>,\b，不同于^和$，他们是检索行的起始位置，结束位置。

如colou?r匹配color和colour，元字符?代表可选项，加在一个字符后表示可以出现这个字符或者不出现,也可以加在一个括号后，表示该括号内的整体都是可选的
匹配7月4日的文本，月份可写成July、Jul,日期可写成fourth、4t、4，表达式可写成(July|Jul) (fourh|4th|4)，July? (fourh|4(th)?)

<tag type='button' />
<tag  type='input' />

这在寻找html标签时候非常重要，因为不知道用户会放置多少个空格
比如匹配<HR size=1>其中的size属性是可选的中间的空格会出现任意的情况，可以写这样的表达式，为了让空格能显示，使用\s来表示空格<HR\s+(size\s*=\s*[0-9]\s*)?\s*>

括号已知有两种作用
- 限制多选项的范围；如(option|opt)
- 受*、+、?等量词的作用；如start(ed)*
括号的第三种作用：反向引用
- 反向引用是正则表达式的一种特性，它允许我们匹配与表达式先前部分匹配的同样的文本；
- 如寻找重复单词the the可以写表达式\<the +the\>，但是如果要穷举所有重复的单词呢？采用如下([A-Za-z]) +\1，其中\1表示的是第一个括号()内的内容，以此内推\2,\3表示第二个，第三个括号内内容

元字符小结：以上内容主要学到的元字符有字符组[]、连字符(只有在字符组合适位置才是连字符)-、排除字符(字符组内)或者脱字符(字符组外)^、单词分解符\< \> \b \B、量词字符* + ? {},括号()，点号.
如果需要匹配的字符是元字符本身，那么就需要采用转义字符\,如\.那么就是匹配点本身；转义字符适用所有元字符，但在字符组内无效
\加上非元字符，可能组成特定的元字符序列，如\<
\加上任意其他字符，默认情况就是匹配此字符（即\被忽略了）

我们要关注支持正则表达式的编程语言的差异
匹配符合要求的文本，同时忽略符合要求的文本
匹配变量名(变量名常见规定是由字母，数字，下划线组成，不能以数字开头，假设限定长度32字符）,表达式:[a-zA-Z_][a-zA-Z0-9_]{0,31}
匹配引号内的字符串，表达式:"[^"]*"；如果可以是单引号：('|")[^"]*\1
匹配美元金额，表达式粗糙版($开头，小数点后可跟两位)\$[0-9]+(\.[0-9][0-9])?
HTML/HTTP URL 表达式粗糙版：\<http://[-a-z0-9_.:]+/[-a-z0-9:@&?=+,.!/~*%$]*\.html\>
HTML Tag 表达式粗糙版：<.*>
表示时刻；如”9:17 am“或者”12：30 pm“，十二小时制表达式：(1[012]|[1-9]):([0-5][0-9]) (am|pm) 二十四小时制:(0?[0-9]|1[0-9]|2[0-3]):[0-5][0-9] (am|pm) 其中0?[0-9]|1[0-9]可合并为[01]?[0-9]
*