Java中正则表达式的学习

最新推荐文章于 2023-05-09 16:50:00 发布

原创最新推荐文章于 2023-05-09 16:50:00 发布 · 409 阅读

0 ·

CC 4.0 BY-SA版权

Java 专栏收录该内容

13 篇文章

订阅专栏

本文介绍了正则表达式的基础概念、常见字符匹配及特殊字符用法，展示了如何通过实例理解贪婪与非贪婪匹配，以及如何在实际场景中灵活运用。

正则表达式简介

正则表达式定义了字符串的模式，可以用来搜索、编辑和处理文本。正则表达式并不仅限于某一种语言。
官网地址：https://docs.oracle.com/javase/7/docs/api/java/util/regex/Pattern.html

常见的字符匹配

表达式	可匹配
\r、\n	回车和换行符
\t	制表符
\	代表“\”本身
\d	0-9中的任意一个数字
\w	任意一个字母或数字或下划线即A-Z a-z 0-9、_中任意一个
\s	匹配空格、制表符、换页符等空白字符的其中任意一个
.	匹配除了换行符(\n)以外的任意一个字符
\S	匹配所有非空白字符(\s取反的意思)
\D	匹配所有非数字字符(\d取反)
\W	匹配所有的数字字母下划线以外的字符(\w取反)
\B	匹配非单词边界，即左右两边都是“\w”范围或者左右两边都不是"\w"范围

包含指定字符的匹配

表达式	可匹配
[xy5#]	匹配"x"或"y"或"5"或“#”
[^jcd]	匹配j,c,d之外的任意一个字符
o-z	匹配o-z之间的任意一个字母
^A-G0-5	匹配A-F,0-3之外的任意一个字符
\D	匹配所有非数字字符(\d取反)

匹配特定位置

表达式	作用
^	与字符串考开始的地方匹配，不匹配任何字符(注意与[^]区分)
$	与字符串结束的地方进行匹配，不匹配任何字符
\b	匹配一个单词边界，即单词和空格之间的位置，不匹配任何字符

修饰匹配次数的特殊字符

表达式	作用
{n}	表达式重复n次。比如f{4}相当于ffff,"\w{2}“相当于”\w\w"
{m,n}	表达式至少重复m次，最多重复n次。比如：“hu{2}”可匹配"hu",“huu”,“huuu”
{m,}	表达式至少重复m次。例如：“\w\d{2,}“可以匹配”a12","_478",R7236
?	匹配表达式0次或1次，相当于{0，1}。比如：”a[cd]？“可匹配”a“,“ac”,“ad”
+	表达式至少出现1次，相当于{1,}。比如：”a+b“可匹配"ab",“aab”,“aaab”
*	表达式不出现或出现任意次，相当于{0,},比如：”^*b“可匹配”b“,"^^^b"

匹配次数的贪婪与非贪婪

贪婪：尽量匹配多个而不是一个
非贪婪：如果一个表达式能匹配多个或一个的时候，尽量匹配一个而不是多个。
举个栗子：

String line="eeeefffffrrrrrrrrr";
Pattern regex=Pattreern.compile("r{4,}")//贪婪
//Pattern regex=Pattreern.compile("r{4,}？")  //非贪婪
Matcher mat=regex.matches(line);
System.out.println(mat.group());
输出结果为
贪婪：rrrrrrrrr（将所有的r输出）
非贪婪：rrrr
       rrrr

表达式	表达结果
{d}(w+)	"w+"将匹配第一个"d"之后的所有字符”xxxdxxxd“
(d)(w+)(d)	"w+"将匹配第一个d和最后一个d之间的所有字符

匹配特殊字符（只需要加斜杠进行转义）

表达式	可匹配
\^	匹配^符号本身
\$	匹配$符号本身
\.	匹配小数点本身

子表达式的关系

表达式	作用
$\vert$	左右两边表达式之间”或“关系，匹配左边或者右边
（）	1.在被修饰匹配次数的时候，括号中的表达式可作为整体被修饰。 2.取匹配结果的死后，括号中的表达式匹配到的内容可以被单独得到

CJ：反向引用\1,\2…

小括号“()”包含的表达式所匹配的字符串，不仅在匹配结束后可以使用，在匹配过程中也可使用。表达式后面的部分可以引用前面“括号内已经匹配到的字符串”。
引用方法：“\”加上一个数字，“\1”引用第一对括号内匹配的字符串，“\2”引用第而对括号内匹配到的字符串…以此类推。如果一对括号内包含另一对括号，则外层的括号先排序号。

<h1>Hello World!<h1><p>Hi My name is Mike</p><span>Nice to meet you</span>

则正则表达式"<(.+).*(\1)>"中的后面小括号中的\1对应前面括号（.+）的内容。作用：匹配上述html代码中的所有标签h1 p span

正向预搜索&反向预搜索

正向预搜索：匹配的是右侧的一个位置

   String line="hello java best,java test,java good java and python";
        //Pattern pattern=Pattern.compile("java\\s(?=good)");
         Matcher mat=pattern.matcher(line);
        while(mat.find()){
            System.out.println(mat.group());
            System.out.println(line.substring(mat.end()-1));
        }
 输出结果为：//匹配的是后面有good的java
 java 
 good java and python

修改上述语句：

Pattern pattern=Pattern.compile("java\\s(?!good)");
输出结果：//匹配的是java是后面不是good的java
java 
 best,java test,java good java and python
java 
 test,java good java and python
java 
 and python

反向预搜索(向往串相反的方向搜索)

Pattern pattern=Pattern.compile("(?<=(hello\\s))java");
输出结果：//匹配第一个java
java
a best,java test,java good java and python

Pattern pattern=Pattern.compile("(?<!(hello\\s))java");
输出结果：//匹配除第一个的所有java
java
a test,java good java and python
java
a good java and python
java
a and python

栗子：

例1：

"^[-_0-9a-zA-Z]*@[0-9a-zA-Z]{2,10}\\.[a-z]{2,5}$"//邮箱校验
// 开始匹配0个或多个数字或字母，@之后是数字字母长度2到10，点之后匹配类似与域名长度在2到5之间。

例2：

"(?=.*[a-z])(?=.*[A-Z])(?=.*\\d)(?=.*[!@#$]).{8,16}"//密码校验
//密码一般包含数字 字母大小写 包含特殊字符。其长度为8-16位

注意事项：
1.正则表达式中的斜杠用\表示,所以java字符串里的"\"在正则中为\\。
2.正则表达式的特殊字符需要转义，如：\\*表示*