一.基础知识
字符是计算机软件处理文字时最基本的单位,可能是字母,数字,标点符号,空格,换行符,汉字等等。
字符串是0个或更多个字符的序列。
文本也就是文字,字符串。
说某个字符串匹配某个正则表达式,通常是指这个字符串里有一部分(或几部分分别)能满足表达式给出的条件。
元字符,metacharacter
二.正则表达式是什么
在编写处理字符串的程序或网页时,经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说,正则表达式就是记录文本规则的代码。
很可能你使用过Windows/Dos下用于文件查找的通配符(wildcard),也就是*和?。如果你想查找某个目录下的所有的Word文档的话,你会搜索*.doc。在这里,*会被解释成任意的字符串。和通配符类似,正则表达式也是用来进行文本匹配的工具,只不过比起通配符,它能更精确地描述你的需求——当然,代价就是更复杂——比如你可以编写一个正则表达式,用来查找所有以0开头,后面跟着2-3个数字,然后是一个连字号“-”,最后是7或8位数字的字符串(像010-12345678或0376-7654321)。
三.正则表达式常用元字符
\b 单词的开头或结尾,也就是单词的分界处
. 除了换行符以外的任意字符
* 前边的内容可以连续重复使用任意次以使整个表达式得到匹配
+ 前边的内容可以连续重复1次或更多次(不同于*,*可以是任意次,而+不能是一次)
.* 任意数量的不包含换行的字符
\d 一位数字(0,或1,或2,或……)
- 不是元字符,只匹配它本身——连字符(或者减号,或者中横线,或者随你怎么称呼它)
\s 任意的空白符,包括空格,制表符(Tab),换行符,中文全角空格等
\w 字母或数字或下划线或汉字等。
^ 匹配字符串的开始
$ 匹配字符串的结束
{5,12} 重复的次数不能少于5次,不能多于12次
四.正则表达式例子
hi 由两个字符组成,前一个字符是h,后一个是i
\bhi\b 精确地查找hi这个单词
\bhi\b.*\bLucy\b 先是一个单词hi,然后是任意个任意字符(但不能是换行),最后是Lucy这个单词
0\d\d-\d\d\d\d\d\d\d\d 以0开头,然后是两个数字,然后是一个连字号“-”,最后是8个数字
0\d{2}-\d{8} 当然也可以写成这样
\ba\w*\b 以字母a开头的单词——先是某个单词开始处(\b),然后是字母a,然后是任意数量的字母或数字(\w*),最后是单词结束处(\b)
\d+ 1个或更多连续的数字
\b\w{6}\b 刚好6个字符的单词
五.字符转义
如果你想查找元字符本身的话,比如你查找.,或者*,就出现了问题:你没办法指定它们,因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此,你应该使用\.和\*。当然,要查找\本身,你也得用\\.
六.正则表达式中的限定符
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次
六.查找没有预定义元字符的字符集合(比如元音字母a,e,i,o,u)只需要在方括号里列出它们就行了
eg. [aeiou] 任何一个英文元音字母
[.?!] 标点符号(.或?或!)
[0-9] 一位数字