简单规则
元字符
. 匹配除换行符以外的任意字符
\w 匹配字母或数字或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或结束
^ 匹配字符串的开始
$ 匹配字符串的结束
对应的大写字母表示相反的意义
\W 匹配字母或数字或下划线或汉字以外的字符
\S 匹配任意的非空白符
\D 匹配非数字
\B 匹配非单词的开始或结束
字符类
要想查找数字, 字母或数字, 空白是很简单的, 因为已经有了对应这些字符集合的元字符, 但是如果你想匹配没有预定义元字符的字符集合(比如元音字母a,e,i,o,u), 应该怎么办? 很简单, 你只需要在方括号里列出它们就行了, 像[aeiou]就匹配任何一个英文元音字母, [.?!]匹配标点符号(.或?或!).
分组
我们已经提到了怎么重复单个字符( 直接在字符后面加上限定符就行了 ); 但如果想要重复多个字符又该怎么办? 你可以用小括号来指定子表达式( 也叫做分组 ), 然后你就可以指定这个子表达式的重复次数了, 你也可以对子表达式进行其它一些操作( 后面会有介绍 ).
匹配次数
* 重复零次或者更多次
+ 重复一次或者更多次
? 重复零次或者一次
{n} 重复n次
{n,} 重复n次或者更多次
{n,m} 重复n次到m次
高级规则
贪婪匹配
当正则表达式中包含能接受重复的限定符时, 通常的行为是( 在使整个表达式能得到匹配的前提下 )匹配尽可能多的字符. 以这个表达式为例: a.*b, 它将会匹配最长的以a开始, 以b结束的字符串. 如果用它来搜索aabab的话, 它会匹配整个字符串aabab. 这被称为贪婪匹配.
有时,我们更需要懒惰匹配, 也就是匹配尽可能少的字符. 前面给出的限定符都可以被转化为懒惰匹配模式, 只要在它后面加上一个问号?
. a.*?b会匹配最短的以a开始, 以b结束的字符串. 如果把它应用于aabab的话, 它会匹配aab( 第一到第三个字符 )和ab( 第四到第五个字符 ).
*? 重复任意次, 但尽可能少重复
+? 重复一次或更多次, 但尽可能少重复
?? 重复零次或一次, 但尽可能少重复
{n,m}? 重复n次到m次, 但尽可能少重复
{n,}? 重复n次以上, 但可能少重复
反向引用
使用小括号指定一个子表达式后, 匹配这个子表达式的文本(也就是此分组捕获的内容)可以在表达式或其它程序中作进一步的处理. 默认情况下, 每个分组会自动拥有一个组号, 规则是: 从左向右, 以分组的左括号为标志, 第一个出现的分组的组号为1, 第二个为2, 以此类推.
\b(\w+)\b\s+\1\b
可以用来匹配重复的单词, 像go go, 或者kitty kitty. (\w+)
将被捕获到编号为1的分组中, 所以后续的\1
将引用这个分组.
你也可以自己指定表达式的组名. 例如: (?<word>\w+)
或者 (?'word'\w+)
, 这样就把\w+
的组名指定为word
了. 要反向引用这个分组捕获的内容, 你可以使用\k<word>
, 所以上面的例子也可以写成: \b(?<word>\w+)\b\s+\k<word>\b
.
需要注意:
- 分组0对应整个正则表达式
- 实际上组号分配过程中是从左往右扫描两遍的: 第一遍只给未命名组分配, 第二遍只给命名组分配. 因此所有命名组的组号都大于未命名组的组号
- 可以使用(?:exp)这样的语法来剥夺一个分组对组号分配的参与权
断言
- (?=exp): 正向先行断言, 它断言自身后面能够匹配表达式exp. 例如:
\b\w+(?=ing\b)
匹配以ing结尾的单词的前面部分(除了ing以外的部分), 如查找 i am singing while you are dancing 时, 它匹配 sing 和 danc. - (?!exp): 反向先行断言, 它断言自身后面不能匹配表达式exp. 例如:
/d{3}(?!=\d)
匹配三位数字, 而且这三位数字后面不能是数字 - (?<=exp): 正向后行断言, 它断言自身前面能够匹配表达式exp. 例如:
(?<=\bre)\w+\b
匹配以re开头的单词的后半部分(除了re以外的部分), 如查找 reading a book 时, 它匹配 ading. - (?<!exp): 反向后行断言, 它断言自身前面不能匹配表达式exp. 例如:
(?<![a-z])\d{7}
匹配前面不是小写字母的七位数字