一. 概念
正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、以及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑
通俗点来讲,正则表达式是用来在大量字符中匹配(寻找)符合自身字符规则的字符串。
二.案例
java中校验某个字符串是否满足某种规则,就可以使用正则表达式
^1[3|5|7|8|9]\\d{9}$
比如上面这个正则表达式,^
匹配输入字符串的开始位置, 1
就是电话号码的首位1,[3|5|7|8|9]
就是从这5个数字里面选一个,\\d
数字字符匹配,等效于[0-9]
, {9}
代表匹配9次,$
匹配输入字符串的结束位置。所以这个正则表达式能检验一个11位的手机号是否有效,比如19106858720
就是一个有效的手机号,而12345678900
则不是一个有效的手机号。
public class five {
public static void main(String[] args) {
// TODO Auto-generated method stub
String str = "abc;123,456?999|haha";
String[] strs = str.split("[;,?|25]");
for(String s : strs) {
System.out.println(s);
}
}
}
以上代码中[;,?|25]
就是一个正则表达式,[]
字符集合,匹配所包含的任意一个字符,所以strs字符串会以; , ? | 2 5
这6个符合为分隔符对str字符串进行输出,输出的结果如下所示。
abc
1
3
4
6
999
haha
三.一些常用的正则表达式规则
字符 | 描述 |
---|---|
. | 匹配单个任意字符 |
| | 相当与“或”,可以匹配指定的字符,但是也只能选择其中一项进行匹配 |
^ | 匹配输入字符串的开始位置 |
$ | 匹配输入字符串的结束位置 |
* | 匹配前面的子表达式零次或多次,* 等价于{0,} |
+ | 匹配前面的子表达式一次或多次,+ 等价于 {1,}。 |
? | 匹配前面的子表达式零次或一次 ,? 等价于 {0,1}。 |
{n} | n 是一个非负整数,匹配确定的 n 次 |
{n,} | n 是一个非负整数,至少匹配n 次 |
{n,m} | m 和 n 均为非负整数,其中n <= m。最少匹配 n 次且最多匹配 m 次 |
? | 当该字符紧跟在任何一个其他限制符 (*, +, ?, {n}, {n,}, {n,m}) 后面时,匹配模式是非贪婪的 |
x | y |
[xyz] | 字符集合,匹配所包含的任意一个字符 |
[^xyz] | 负值字符集合,匹配未包含的任意字符 |
[a-z] | 字符范围,匹配指定范围内的任意字符 |
[^a-z] | 负值字符范围,匹配任何不在指定范围内的任意字符 |
\b | 匹配一个单词边界,也就是指单词和空格间的位置 |
\d | 匹配一个数字字符,等价于 [0-9] |
\D | 匹配一个非数字字符,等价于 [^0-9] |
\w | 匹配字母、数字、下划线,等价于’[A-Za-z0-9_]’ |
\W | 匹配非字母、数字、下划线,等价于 ‘[^A-Za-z0-9_]’ |
\f | 匹配一个换页符。等价于\x0c和\cL |
\n | 匹配一个换行符。等价于\x0a和\cJ |
\r | 匹配一个回车符。等价于\x0d和\cM |
\s | 匹配任何不可见字符,包括空格、制表符、换页符等等。等价于[ \f\n\r\t\v] |
\S | 匹配任何可见字符。等价于[^ \f\n\r\t\v] |