Java| 正则表达式之Pattern

Java正则表达式实战
本文详细介绍Java中正则表达式的使用方法,包括Pattern和Matcher类的应用,以及如何利用正则表达式进行字符串匹配和拆分。同时,还介绍了如何处理特殊字符以及数量词和逻辑运算符等正则表达式构造。

一:正则表达式开发思路

首先写出正则表达式的匹配模型, 然后针对java写出java版的匹配模型.运用javaAPI Pattern 类和Matcher类来是实现java的正则匹配.

首先在匹配模式中最简单的正则表达式是不经过任何转义的,比如直接输入的英文字母s,就是代表要要匹配字母s如果要匹配两个ss,当然还可以用到正则表达中关于数量的符号
s+,这个表达式代表着要匹配到的是s为最少一个,+代表最少一个,关于数量的符号,在本文的最后以附录的形式总结了.
这里在使用编译一个正则表达式模型时候注意查看javaAPI,我们可以看到API中使用那些有特殊意义的字符格式都用到了转义字符\比如匹配非空表字符使用的是\S ,这只正则表达式的理论格式,在实际的java开发中\是转义字符,肯定是不能单独使用的.所以用到的正确格式为\\S ,关于转义字符的使用可以查看我的另外一篇文章,java中转义字符和路径符号.一个\\S还只是代表了一个非空白字符,那么有伙伴就会问,那么要匹配多个非空白字符该真么办呢:\\S*这里用到了正则表达式中的符号.


二:Pattern类的运用

Pattern类用于创建一个正则表达式,也可以说创建一个匹配模式,它的说构造方法是私有的,不可以直接创建,但可以通过Pattern.complie(String regex)简单工厂方法创建一个正则表达式.该方法有两个重载.

Java代码示例:

Pattern p=Pattern.compile("\\w+",Pattern.CASE_INSENSITIVE); 
p.pattern();//返回 \w+ 

public static Pattern compile(String regex, int flags) 该方法中,主要讲一下第二参数flag的作用:flags 主要是用来设置匹配标志,可能包括 CASE_INSENSITIVE、MULTILINE、DOTALL、UNICODE_CASE、 CANON_EQ、UNIX_LINES、LITERAL 和 COMMENTS的位掩码,下表时各个字段的具体用途:

字段用途
CANON_EQ启用规范等价。
CASE_INSENSITIVE启用不区分大小写的匹配。(如匹配模式为”yves”,用find()方法查找时,允许可以匹配”yves”和”YveS”)
COMMENTS模式中允许空白和注释(如匹配模式为”yves”,用find()方法查找时,允许可以匹配”yves “和” yves “,不能匹配”y v e s”)
DOTALL启用 dotall 模式。
LITERAL启用模式的字面值解析。
MULTILINE启用多行模式。
UNICODE_CASE启用 Unicode 感知的大小写折叠。
UNIX_LINES启用 Unix 行模式。

complile方法:

由于Pattern是构造私有的,该方法主要用途是用来产生Pattern的可操作对象,用来调用Pattern的实例方法,其中最主要的用途是用来产生Pattern对象后得到Matcher对象,然后再根据编译的模式,来匹配查找要匹配的数据.

    String regex = "yves";
        Pattern pattern = Pattern.compile(regex, Pattern.COMMENTS);// Pattern.compile(regex,0)等价Pattern.compile(regex);

        System.out.println(pattern.pattern());// pattern.pattern()该方法不管flag参数为何值,还依然是之前编译后的值

        Matcher matcher = pattern.matcher("y v e s");

        boolean result = matcher.find();//false

flags方法:

返回此模式的匹配标志,也就是public static Pattern compile(String regex, int flags)中的匹配标志flag的值

pattern和toString方法:

    private String pattern;
    public String toString() {
        return pattern;
    }
private String pattern;
     public String pattern() {
        return pattern;
    }

通过观看toString()和pattern() 的源码发现:都是返回在其中编译过此模式的正则表达式。pattern()返回正则表达式的字符串形式,其实就是返回Pattern.complile(String regex)的regex参数,只是这是编译后的参数.换个说法就是原来参数中存在存在两个转义符\\的编译后只存在一个\了.

split方法:

public String[] split(CharSequence input,
                      int limit)
    public String[] split(CharSequence input) {
        return split(input, 0);
    }

该类方法有重载:看了代码一目了然了吧,split有两个重载.
这里说一下它的参数:
1. input - 要拆分的字符序列
2. limit - 结果阈值,如上文中所述,limit 参数控制应用模式的次数,从而影响结果数组的长度。
- 如果 n > 0 ,那么模式至多应用 n> - 1 次,数组的长度不大于n,并且数组的最后条目将包含除最后的匹配定界符之外的所有输入。(也就是说包括空字符也算)换一种说法就是:在数据可以分割的足够多的组的前提下,limit参数也就是代表分割后数组的长度.当limit超过了实际能分组的数量时候,还是以实际能分组的数量来返回数据.
- 如果 n < 0 ,那么将应用模式的次数不受限制,并且数组可以为任意长度,而且不丢弃尾部的空字符串.("name:age:")这种情况会分成三组.
- 如果 n = 0 ,那么应用模式的次数不受限制,数组可以为任意长度,并且将丢弃尾部空字符串.(这里要注意的是空字符串,而不是空白字符串,"name:age:address:"按:分割后如果limit为0则得到是数组长度为3,如果limit为负数,则得到的数据为4,但是如果原数据是"name:age:address:\t"这样的包含的空白字符串得带数组的长度依旧是4).
3. 返回值:
根据围绕此模式的匹配来拆分输入后所计算的字符串数组.
split如果此模式与输入的任何子序列都不匹配,那么得到的数组仅包含一个元素,即字符串形式的输入序列,也就是说,当不匹配的时候直接返回数组的长度为一的数组,该内容就是input的toString()形式.
查看源码发现当没有找到的时候是将input.toSting()返回了.

   if (index == 0)
            return new String[] {input.toString()};

quote方法:

该方法是静态方法,返回指定 String 的字面值模式 String。 此方法产生一个 String,可以将其用于创建与字符串 s 匹配的 Pattern,就好像它是字面值模式一样。特别说明:输入序列中的元字符和转义序列不具有任何特殊意义。也就是说使用该方法的时候可以转换那些在java是含有特殊意义的字符为字面量.提供匹配这些特殊的符号.
举个例子:

        Pattern compile = Pattern.compile("\\w*");
        Matcher matcher = compile.matcher("yves");
        System.out.println(matcher.matches());//true

在没有使用quote()来字面量的时候,\\w*正则里面是匹配任意多个非空白字符的,试想一下如果我只是想完全匹配的是\w这样的字符时,该怎么办?java,于是javaAPI中就出现了quote()方法,来讲那些有特殊意义的符号,比如\来转变成字面量.具体用法如下:

        String quote = Pattern.quote("\\w*");
        System.out.println(quote);//  返回的Strring结果为:   \Q\w*\E 

在使用quote()方法之后,原有的字符串\\w*变成了\Qs\E的样式,那么\Q\E代表什么意思呢?
- \Q 代表字面内容的开始
- \E 代表字面内容的结束
也就是说,调用Patter.quote()方法之后,原有的字符串被\Q..\E包裹,返回后的字符串成了正则字面量.下面给给出了匹配字符串\w*的完全匹配:

        String quote = Pattern.quote("\\w*");
        System.out.println(quote);

        Pattern pattern = Pattern.compile(quote);
        Matcher matcher1 = pattern.matcher("yves");
        Matcher matcher2 = pattern.matcher("\\w*");

        boolean find1 = matcher1.find();
        boolean find2 = matcher2.find();
        System.out.println(find1);// false
        System.out.println(find2);// true

这里要说明一下的是Matcher matcher2 = pattern.matcher("\\w*");这句代码是因为在java中书写,所以是还是要转义\符号.如果你的内容是从文本文件中读取,可能在文本文件里面就直接书写的\w*内容,而不是\\w*;


附录:正则表达式的构造摘要(更多详情见Pattern类的API)

这里列出常用的构造摘要:

Greedy 数量词

符号示意
X?X,一次或一次也没有
X*X,零次或多次
X+X,一次或多次
X{n}X,恰好 n 次
X{n,}X,至少 n 次
X{n,m}X,至少 n 次,但是不超过 m 次

Logical 运算符

符号示意
XY1X 后跟 Y
XY
(X)X,作为捕获组

字符类

符号示意
[abc]a、b 或 c(简单类)
[^abc]任何字符,除了 a、b 或 c(否定)
[a-zA-Z]a 到 z 或 A 到 Z,两头的字母包括在内(范围)
[a-d[m-p]]a 到 d 或 m 到 p:[a-dm-p](并集)
[a-z&&[def]]d、e 或 f(交集)
[a-z&&[^bc]]a 到 z,除了 b 和 c:[ad-z](减去)
[a-z&&[^m-p]]a 到 z,而非 m 到 p:[a-lq-z](减去)

预定义字符类

符号示意
.任何字符(与行结束符可能匹配也可能不匹配)
\d数字:[0-9]
\D非数字: [^0-9]
\s空白字符:[ \t\n\x0B\f\r]
\S非空白字符:[^\s]
\w单词字符:[a-zA-Z_0-9]
\W非单词字符:[^\w]
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值