JDK6笔记(3)----正则表达式
一、正则表达式的编译形式
1)指定为字符串的正则表达式必须首先被编译为此类的实例。compile
2)将得到的模式用于创建Matcher对象。matcher
3)依照正则表达式,该对象可以于任意字符序列匹配。matches
例:
Pattern p=Pattern.compile("a*b");
Matcher m=P.matcher("aaaaab");
boolean b=m.matches();
二、规则
1)字符类
.表示任何字符
[abc]包含a、b、c的任何字符(和a|b|c相同)
[^abc]除a、b、c之外的任何字符(否定)
[a-zA-Z]任何从a到z或从A到Z的字符(范围)
[abc[hij]]任意a、b、c、h、i、j字符(与a|b|c|h|i|j相同)(合并)
[a-z&&[hij]]任意h、i、j字符(交)
/swhitespace符(空格、tab、换行、换页、回车)
/S非whitespace符([^/s])
/d数字[0-9]
/D非数字[^0-9]
/wword character([a-zA-Z_[0-9])
/W非word character(^/w)
2)在Java中,“//”意味着正在插入一个正则表达式的反斜杠,随后的字符具有特殊意义。
XYXY
X|YX或Y
(X)Capturing group
3)边界匹配
^一行的开始
$一行的结束
/b词界
/B非词界
/G上一级的结尾
4)量词
?0或1个
*0或多个
+1或多个
X{n}X,恰好n次
X{n,}X,至少n次
X{n,m}X,至少n次,至多m次
三、字符序列
CharSequence接口,从String到StringBuffer类中抽象出。
interface CharSequence{
charAt(int i);//返回指定索引处的char值
length();//返回长度
subSequence(int start,int end);//返回从索引start开始,end结束的子序列
toString();//返回字符串
}
四、在Java中,正则表达式是通过java.util.regex包里面的Pattern和Matcher类来实现的。
1)Matcher.find()用于发现应用于CharSequence的多重模式匹配。
2)find(int start) 重置此匹配器,然后尝试查找匹配该模式、从指定索引开始的输入序列的下一个子序列。
例:
package myfile;
import java.util.regex.*;
import java.util.*;
public class FindDemo {
private static String str="boolean contains(CharSequence s) new Test()";
public static void main(String[] args) {
Matcher m=Pattern.compile("//w+").matcher("Evening is full of the linnet's wings");
while(m.find())
System.out.println(m.group());
int i=0;
while(m.find(i)){
i++;
System.out.print(m.group()+" ");
}
System.out.println("/n"+"i="+i);
}
}