正则表达式

最新推荐文章于 2024-05-20 10:35:51 发布

原创最新推荐文章于 2024-05-20 10:35:51 发布

· 148 阅读

0 ·

版权

正则表达式

1. 概念

正则表达式就是查找复杂规则的字符串的需要，用来描述这些规则的代码

2. 常用的元字符

. 匹配除了换行符以外的任意字符
\w 匹配字母或者数字或者下划线或者汉字
\s 匹配任意的空白符
\d 匹配数字
\b 匹配单词的开始或者结束
^ 匹配字符串的开始
$ 匹配字符串的结束
\ 转义符

3. 分支条件

使用 | 把规则分隔开

4. 分组

使用小括号来指定子表达式

5. 取反义

\W 匹配任意不是字母，数字，下划线，汉字的字符
\S 匹配任意不是空白的字符
\D 匹配任意不是数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x以外的任意字符
[^aeiou] 匹配除了aeiou的任意字符

6. 后向引用

使用小括号指定一个zi2表达式后，匹配这个子表达式的文本，可以在表达式或其他程序中做进一步的处理。
（exp）匹配exp，并且捕获文本到自动命名的组里
（？exp）匹配exp，并捕获文本到名称为name的组里
（?:exp）匹配exp，不捕获匹配的文本，也不给此分组分配组号
（？=exp）匹配exp前面的位置
（？<=exp）匹配exp后面的位置
（？！exp）匹配后面跟的不是exp的位置
（？<!exp）匹配前面不是exp的位置
（？#comment）提供注释供阅读

7. 贪婪和慵懒

贪婪匹配：匹配尽可能多的字符
懒惰匹配：匹配尽可能少的字符
*？重复任意次，但尽可能少重复,
+? 重复一次或更多次，但尽可能少重复
？？重复0次或者一次，但尽可能少重复
{n,m}? 重复n到m次，但尽可能少的重复
{n,}? 重复n次以上，但尽可能少重复

8. 其他内容

\a 报警字符
\t 制表符，tab
\r 回车
\v 竖向制表符
\f 换页符
\n 换行符
\e esc
\0nn ascii代码中八进制为nn的字符
\xnn ascii代码中十六进制代码为nn的字符
\unnnn unicode代码中十六进制代码为nnnn的字符
\c N ascii控制符，ctrl+n
\A 字符串开头
\Z字符串结尾
\z 字符串结尾
\G 当前搜索的开头
\p{name} unicode中命名为name的字符
(?>exp) 贪婪子表达式
（？-exp）平衡组
（？imnsx:epx）子表达式exp中改变处理选项
（？（exp）yes|no）把ex当作零宽正向先行断言，如果这个位置能匹配，使用yes作为此组的表达式；否则使用no
(？(name)yes|no) 如果命名为name的组捕获到了内容使用yes作为表达式；否者使用no