正则表达式学习笔记

最新推荐文章于 2024-04-03 13:11:36 发布

原创最新推荐文章于 2024-04-03 13:11:36 发布 · 438 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

#正则表达式

java开发笔记专栏收录该内容

71 篇文章

订阅专栏

这是一篇正则表达式学习文档，介绍了元字符、重复、字符类、运算符等内容。如元字符\\b用于匹配单词边界，字符类有并集和交集运算符。还提及行结束符的多种形式，最后给出查找英文文章中“hi”的正则示例。

正则表达式学习文档

元字符

构造	匹配
^	匹配行或者字符串的起始位置，有时还会匹配整个文档的起始位置
$	匹配行或字符串的结尾
\b	匹配一个位置
.	任何字符（与行结束符可能匹配也可能不匹配）
\d	数字：[0-9]
\D	非数字： [^0-9]
\s	空白字符：[ \t\n\x0B\f\r]
\S	非空白字符：[^\s]
\w	匹配字母或数字或下划线
\W	非单词字符：[^\w]

\b : 不会消耗任何字符只匹配一个位置，常用于匹配单词边界 ;如我想从字符串中"This is Regex"匹配单独的单词 “is” 正则就要写成 “\bis\b”
　　 \b 不会匹配is 两边的字符，但它会识别is 两边是否为单词的边界

重复

构造	匹配
X?	X，一次或一次也没有
X*	X，零次或多次
X+	X，一次或多次
X{n}	X，恰好 n 次
X{n,}	X，至少 n 次
X{n,m}	X，至少 n 次，但是不超过 m 次

字符类

构造	匹配
[abc]	a、b 或 c（简单类）
[^abc]	任何字符，除了 a、b 或 c（否定）
[a-zA-Z]	a 到 z 或 A 到 Z，两头的字母包括在内（范围）
[a-d[m-p]]	a 到 d 或 m 到 p：[a-dm-p]（并集）
[a-z&&[def]]	d、e 或 f（交集）
[a-z&&[^bc]]	a 到 z，除了 b 和 c：[ad-z]（减去）
[a-z&&[^m-p]]	a 到 z，而非 m 到 p：[a-lq-z]（减去）

运算符

构造	匹配
XY	X 后跟 Y
X\|Y	X 或 Y
(X)	X，作为捕获组

边界匹配器

构造	匹配
^	行的开头
$	行的结尾
\b	单词边界
\B	非单词边界
\A	输入的开头
\G	上一个匹配的结尾
\Z	输入的结尾，仅用于最后的结束符（如果有的话）
\z	输入的结尾

字符

构造	匹配
x	字符 x
\\	反斜线字符
\0_n_	带有八进制值 0 的字符 n (0 <= n <= 7)
\0_nn_	带有八进制值 0 的字符 nn (0 <= n <= 7)
\0_mnn_	带有八进制值 0 的字符 mnn（0 <= m <= 3、0 <= n <= 7）
\x_hh_	带有十六进制值 0x 的字符 hh
\u_hhhh_	带有十六进制值 0x 的字符 hhhh
\t	制表符 (’\u0009’)
\n	新行（换行）符 (’\u000A’)
\r	回车符 (’\u000D’)
\f	换页符 (’\u000C’)
\a	报警 (bell) 符 (’\u0007’)
\e	转义符 (’\u001B’)
\c_x_	对应于 x 的控制符

OSIX 字符类（仅 US-ASCII）

构造	匹配
\p{Lower}	小写字母字符：[a-z]
\p{Upper}	大写字母字符：[A-Z]
\p{ASCII}	所有 ASCII：[\x00-\x7F]
\p{Alpha}	字母字符：[\p{Lower}\p{Upper}]
\p{Digit}	十进制数字：[0-9]
\p{Alnum}	字母数字字符：[\p{Alpha}\p{Digit}]
\p{Punct}	标点符号：!"#$%&’()*+,-./:;<=>?@[\]^_`{\|}~
\p{Graph}	可见字符：[\p{Alnum}\p{Punct}]
\p{Print}	可打印字符：[\p{Graph}\x20]
\p{Blank}	空格或制表符：[ \t]
\p{Cntrl}	控制字符：[\x00-\x1F\x7F]
\p{XDigit}	十六进制数字：[0-9a-fA-F]
\p{Space}	空白字符：[ \t\n\x0B\f\r]

Back 引用

构造	匹配
\n	任何匹配的 n 捕获组

引用

构造	匹配
\	Nothing，但是引用以下字符
\Q	Nothing，但是引用所有字符，直到 \E
\E	Nothing，但是结束从 \Q 开始的引用

特殊构造（非捕获）

构造	匹配
(?:X)	X，作为非捕获组
(?idmsux-idmsux)	Nothing，但是将匹配标志i d m s u x on - off
(?idmsux-idmsux:X)	X，作为带有给定标志 i d m s u x on - off
(?=X)	X，通过零宽度的正 lookahead
(?!X)	X，通过零宽度的负 lookahead
(?<=X)	X，通过零宽度的正 lookbehind
(?<!X)	X，通过零宽度的负 lookbehind
(?>X)	X，作为独立的非捕获组

字符类

字符类可以出现在其他字符类中，并且可以包含并集运算符（隐式）和交集运算符 (&&)。并集运算符表示至少包含其某个操作数类中所有字符的类。交集运算符表示包含同时位于其两个操作数类中所有字符的类。字符类运算符的优先级如下所示，按从最高到最低的顺序排列：

值转义 \x
[...]
a-z
并集[a-e][i-u]
交集[a-z&&[aeiou]]

注意，元字符的不同集合实际上位于字符类的内部，而非字符类的外部。例如，正则表达式 . 在字符类内部就失去了其特殊意义，而表达式 - 变成了形成元字符的范围。

行结束符

行结束符 是一个或两个字符的序列，标记输入字符序列的行结尾。以下代码被识别为行结束符：

（换行）符 ('\n')、
后面紧跟新行符的回车符 ("\r\n")、
单独的回车符 ('\r')、
下一行字符 ('\u0085')、
行分隔符 ('\u2028')
或段落分隔符 ('\u2029)。

其他

转义符: \
分支(或): |
表达式: (内容) 用()表示一个整体

例子

查找一篇英文文章中的hi : \bhi\b

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

刘彦青-Yannis 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。