正则表达式
1. 概念
正则表达式就是查找复杂规则的字符串的需要,用来描述这些规则的代码
2. 常用的元字符
. 匹配除了换行符以外的任意字符
\w 匹配字母或者数字或者下划线或者汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或者结束
^ 匹配字符串的开始
$ 匹配字符串的结束
\ 转义符
3. 分支条件
使用 | 把规则分隔开
4. 分组
使用小括号来指定子表达式
5. 取反义
\W 匹配任意不是字母,数字,下划线,汉字的字符
\S 匹配任意不是空白的字符
\D 匹配任意不是数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou的任意字符
6. 后向引用
使用小括号指定一个zi2表达式后,匹配这个子表达式的文本,可以在表达式或其他程序中做进一步的处理。
(exp) 匹配exp,并且捕获文本到自动命名的组里
(?exp) 匹配exp,并捕获文本到名称为name的组里
(?:exp) 匹配exp,不捕获匹配的文本,也不给此分组分配组号
(?=exp) 匹配exp前面的位置
(?<=exp)匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
(?#comment) 提供注释供阅读
7. 贪婪和慵懒
贪婪匹配:匹配尽可能多的字符
懒惰匹配:匹配尽可能少的字符
*? 重复任意次,但尽可能少重复,
+? 重复一次或更多次,但尽可能少重复
?? 重复0次或者一次,但尽可能少重复
{n,m}? 重复n到m次,但尽可能少的重复
{n,}? 重复n次以上,但尽可能少重复
8. 其他内容
\a 报警字符
\t 制表符,tab
\r 回车
\v 竖向制表符
\f 换页符
\n 换行符
\e esc
\0nn ascii代码中八进制为nn的字符
\xnn ascii代码中十六进制代码为nn的字符
\unnnn unicode代码中十六进制代码为nnnn的字符
\c N ascii控制符,ctrl+n
\A 字符串开头
\Z字符串结尾
\z 字符串结尾
\G 当前搜索的开头
\p{name} unicode中命名为name的字符
(?>exp) 贪婪子表达式
(?-exp) 平衡组
(?imnsx:epx) 子表达式exp中改变处理选项
(?(exp)yes|no) 把ex当作零宽正向先行断言,如果这个位置能匹配,使用yes作为此组的表达式;否则使用no
(?(name)yes|no) 如果命名为name的组捕获到了内容使用yes作为表达式;否者使用no