一:正则表达式开发思路
首先写出正则表达式的匹配模型, 然后针对java写出java版的匹配模型.运用javaAPI Pattern 类和Matcher类来是实现java的正则匹配.
首先在匹配模式中最简单的正则表达式是不经过任何转义的,比如直接输入的英文字母s
,就是代表要要匹配字母s
如果要匹配两个ss
,当然还可以用到正则表达中关于数量的符号
s+
,这个表达式代表着要匹配到的是s为最少一个,+代表最少一个,关于数量的符号,在本文的最后以附录的形式总结了.
这里在使用编译一个正则表达式模型时候注意查看javaAPI,我们可以看到API中使用那些有特殊意义的字符格式都用到了转义字符\
比如匹配非空表字符使用的是\S
,这只正则表达式的理论格式,在实际的java开发中\是转义字符,肯定是不能单独使用的.所以用到的正确格式为\\S
,关于转义字符的使用可以查看我的另外一篇文章,java中转义字符和路径符号.一个\\S
还只是代表了一个非空白字符,那么有伙伴就会问,那么要匹配多个非空白字符该真么办呢:\\S*
这里用到了正则表达式中的符号.
二:Pattern类的运用
Pattern类用于创建一个正则表达式,也可以说创建一个匹配模式,它的说构造方法是私有的,不可以直接创建,但可以通过Pattern.complie(String regex)
简单工厂方法创建一个正则表达式.该方法有两个重载.
Java代码示例:
Pattern p=Pattern.compile("\\w+",Pattern.CASE_INSENSITIVE);
p.pattern();//返回 \w+
public static Pattern compile(String regex, int flags)
该方法中,主要讲一下第二参数flag的作用:flags 主要是用来设置匹配标志,可能包括 CASE_INSENSITIVE、MULTILINE、DOTALL、UNICODE_CASE、 CANON_EQ、UNIX_LINES、LITERAL 和 COMMENTS
的位掩码,下表时各个字段的具体用途:
字段 | 用途 |
---|---|
CANON_EQ | 启用规范等价。 |
CASE_INSENSITIVE | 启用不区分大小写的匹配。(如匹配模式为”yves”,用find()方法查找时,允许可以匹配”yves”和”YveS”) |
COMMENTS | 模式中允许空白和注释(如匹配模式为”yves”,用find()方法查找时,允许可以匹配”yves “和” yves “,不能匹配”y v e s”) |
DOTALL | 启用 dotall 模式。 |
LITERAL | 启用模式的字面值解析。 |
MULTILINE | 启用多行模式。 |
UNICODE_CASE | 启用 Unicode 感知的大小写折叠。 |
UNIX_LINES | 启用 Unix 行模式。 |
complile方法:
由于Pattern是构造私有的,该方法主要用途是用来产生Pattern的可操作对象,用来调用Pattern的实例方法,其中最主要的用途是用来产生Pattern对象后得到Matcher对象,然后再根据编译的模式,来匹配查找要匹配的数据.
String regex = "yves";
Pattern pattern = Pattern.compile(regex, Pattern.COMMENTS);// Pattern.compile(regex,0)等价Pattern.compile(regex);
System.out.println(pattern.pattern());// pattern.pattern()该方法不管flag参数为何值,还依然是之前编译后的值
Matcher matcher = pattern.matcher("y v e s");
boolean result = matcher.find();//false
flags方法:
返回此模式的匹配标志,也就是public static Pattern compile(String regex, int flags)
中的匹配标志flag的值
pattern和toString方法:
private String pattern;
public String toString() {
return pattern;
}
private String pattern;
public String pattern() {
return pattern;
}
通过观看toString()和pattern() 的源码发现:都是返回在其中编译过此模式的正则表达式。pattern()返回正则表达式的字符串形式,其实就是返回Pattern.complile(String regex)
的regex参数,只是这是编译后的参数.换个说法就是原来参数中存在存在两个转义符\\
的编译后只存在一个\
了.
split方法:
public String[] split(CharSequence input,
int limit)
public String[] split(CharSequence input) {
return split(input, 0);
}
该类方法有重载:看了代码一目了然了吧,split有两个重载.
这里说一下它的参数:
1. input - 要拆分的字符序列
2. limit - 结果阈值,如上文中所述,limit 参数控制应用模式的次数,从而影响结果数组的长度。
- 如果 n > 0 ,那么模式至多应用 n> - 1 次,数组的长度不大于n,并且数组的最后条目将包含除最后的匹配定界符之外的所有输入。(也就是说包括空字符也算)换一种说法就是:在数据可以分割的足够多的组的前提下,limit参数也就是代表分割后数组的长度.当limit超过了实际能分组的数量时候,还是以实际能分组的数量来返回数据.
- 如果 n < 0 ,那么将应用模式的次数不受限制,并且数组可以为任意长度,而且不丢弃尾部的空字符串.("name:age:")
这种情况会分成三组.
- 如果 n = 0 ,那么应用模式的次数不受限制,数组可以为任意长度,并且将丢弃尾部空字符串.(这里要注意的是空字符串,而不是空白字符串,"name:age:address:"
按:分割后如果limit为0则得到是数组长度为3,如果limit为负数,则得到的数据为4,但是如果原数据是"name:age:address:\t"
这样的包含的空白字符串得带数组的长度依旧是4).
3. 返回值:
根据围绕此模式的匹配来拆分输入后所计算的字符串数组.
split如果此模式与输入的任何子序列都不匹配,那么得到的数组仅包含一个元素,即字符串形式的输入序列,也就是说,当不匹配的时候直接返回数组的长度为一的数组,该内容就是input的toString()形式.
查看源码发现当没有找到的时候是将input.toSting()
返回了.
if (index == 0)
return new String[] {input.toString()};
quote方法:
该方法是静态方法,返回指定 String 的字面值模式 String。 此方法产生一个 String,可以将其用于创建与字符串 s 匹配的 Pattern,就好像它是字面值模式一样。特别说明:输入序列中的元字符和转义序列不具有任何特殊意义。也就是说使用该方法的时候可以转换那些在java是含有特殊意义的字符为字面量.提供匹配这些特殊的符号.
举个例子:
Pattern compile = Pattern.compile("\\w*");
Matcher matcher = compile.matcher("yves");
System.out.println(matcher.matches());//true
在没有使用quote()来字面量的时候,\\w*
正则里面是匹配任意多个非空白字符的,试想一下如果我只是想完全匹配的是\w
这样的字符时,该怎么办?java,于是javaAPI中就出现了quote()方法,来讲那些有特殊意义的符号,比如\
来转变成字面量.具体用法如下:
String quote = Pattern.quote("\\w*");
System.out.println(quote);// 返回的Strring结果为: \Q\w*\E
在使用quote()方法之后,原有的字符串\\w*
变成了\Qs\E
的样式,那么\Q
和\E
代表什么意思呢?
- \Q
代表字面内容的开始
- \E
代表字面内容的结束
也就是说,调用Patter.quote()
方法之后,原有的字符串被\Q..\E
包裹,返回后的字符串成了正则字面量.下面给给出了匹配字符串\w*
的完全匹配:
String quote = Pattern.quote("\\w*");
System.out.println(quote);
Pattern pattern = Pattern.compile(quote);
Matcher matcher1 = pattern.matcher("yves");
Matcher matcher2 = pattern.matcher("\\w*");
boolean find1 = matcher1.find();
boolean find2 = matcher2.find();
System.out.println(find1);// false
System.out.println(find2);// true
这里要说明一下的是Matcher matcher2 = pattern.matcher("\\w*");
这句代码是因为在java中书写,所以是还是要转义\
符号.如果你的内容是从文本文件中读取,可能在文本文件里面就直接书写的\w*
内容,而不是\\w*
;
附录:正则表达式的构造摘要(更多详情见Pattern类的API)
这里列出常用的构造摘要:
Greedy 数量词
符号 | 示意 |
---|---|
X? | X,一次或一次也没有 |
X* | X,零次或多次 |
X+ | X,一次或多次 |
X{n} | X,恰好 n 次 |
X{n,} | X,至少 n 次 |
X{n,m} | X,至少 n 次,但是不超过 m 次 |
Logical 运算符
符号 | 示意 |
---|---|
XY1 | X 后跟 Y |
X | Y |
(X) | X,作为捕获组 |
字符类
符号 | 示意 |
---|---|
[abc] | a、b 或 c(简单类) |
[^abc] | 任何字符,除了 a、b 或 c(否定) |
[a-zA-Z] | a 到 z 或 A 到 Z,两头的字母包括在内(范围) |
[a-d[m-p]] | a 到 d 或 m 到 p:[a-dm-p](并集) |
[a-z&&[def]] | d、e 或 f(交集) |
[a-z&&[^bc]] | a 到 z,除了 b 和 c:[ad-z](减去) |
[a-z&&[^m-p]] | a 到 z,而非 m 到 p:[a-lq-z](减去) |
预定义字符类
符号 | 示意 |
---|---|
. | 任何字符(与行结束符可能匹配也可能不匹配) |
\d | 数字:[0-9] |
\D | 非数字: [^0-9] |
\s | 空白字符:[ \t\n\x0B\f\r] |
\S | 非空白字符:[^\s] |
\w | 单词字符:[a-zA-Z_0-9] |
\W | 非单词字符:[^\w] |