@Author:云都小生
概述
正则表达式是啥嘞?其实它也算一个微小且高度专业化的编程语言。它可以用来匹配/描述哪些你希望匹配的字符串,我们先来看几个例子。
场景1:在网页设计中,我们现在需要对用户输入进行验证,只要用户输入的不是8个数字就不能通过。这个我们怎么去检测?
再复杂点,我们想匹配邮件的格式,xxx@.com类似这种,但是不要.xxxx@.com这种··· 这个时候怎么办?
场景2:某个程序员想一个爬虫来挖掘一个网站中所有的IP地址,那我们应该怎么去匹配这些字符串?
正则表达式其实就是一套标准,可以通过这套标准,来描述、匹配某个字符串。
许多的编程语言都支持正则表达式,基本上都有正则表达式的身影。如果学会正则表达式,平时开发会更高效。
从元字符入手
首先我们需要认识一些元字符。
特别字符 | 描述 |
---|---|
$ | 匹配输入字符串的结尾位置。若要匹配 $ 字符本身,请使用 \$。 |
( ) | 标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符,请使用 \( 和 \) |
* | 匹配前面的子表达式零次或多次。要匹配 * 字符,请使用 \* |
+ | 匹配前面的子表达式一次或多次。要匹配 + 字符,请使用 \+ |
. | 匹配除换行符 \n 之外的任何单字符。要匹配 . ,请使用 \. |
[ | 标记一个中括号表达式的开始。要匹配 [,请使用 \[ |
? | 匹配前面的子表达式零次或一次,或指明一个非贪婪限定符。要匹配 ? 字符,请使用 \? |
\ | 将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如, ‘n’ 匹配字符 ‘n’。’\n’ 匹配换行符。序列 ‘\\’ 匹配 “\”,而 ‘\(’ 则匹配 “(“。 |
^ | 匹配输入字符串的开始位置,除非在方括号表达式中使用,此时它表示不接受该字符集合。要匹配 ^ 字符本身,请使用 \^。 |
{ | 标记限定符表达式的开始。要匹配 {,请使用 \{。 |
| | 指明两项之间的一个选择。要匹配 |,请使用 \|。 |
我们一个个来看,首先看看*、+、?和{},这四个用于限定匹配的次数。
ab*c,这个就能匹配它前面的子表达式0次或多次,例如说ac、abc、abbbc都可以;
ab+c,这个只能匹配前面子表达式一次或多次,ac就这个时候就不行了,必须是abc、abbc····
ab?c,这个匹配的是子表达式零次或一次,ac可以,abc可以,abbc、abbbc就不可以了。
{n},表示匹配前面的子表达式n次;
{n,m},表示匹配前面的子表达式n~m次,最少n次,最多n次;
{n,},表示匹配前面子表达式最少n次。
^和</strong>是定位符,分别表示字符串的开始与结束,通常我们写正则表达式的时候,一开始都会先写一个,然后在正则表达式的最后写一个。
[]方括号可以包含一系列字符,能匹配其中任意一个字符。用[^]包含一系列字符,能够匹配除了其中字符外的任意一个字符。[A-Z]匹配的是大写A~大写Z。如果[^a-z]匹配除了a~z外的其他任意字符。[abc5@]可以匹配”a”、”b”、”c”、”5”、”@”。
|当出现这个时候,它的意思是,要么匹配左边的,要么匹配右边的。[a-z]|[A-Z]表示匹配a~z或者A-Z。
普通字符与转义字符
字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号,都是”普通字符”。表达式中的普通字符,在匹配一个字符串的时候,匹配与之相同的一个字符。
\r、\n代表回车和换行符,[\r\n]表示只匹配回车符和换行符;
\t代表制表符;
有一些在正则表达式中有特殊用途的,需要加上斜杠才能匹配自身,\^,匹配 ^ 符号本身;$匹配 $ 符号本身;.匹配小数点(.)本身。
除了这些,正则中还有一些其他的转义字符,\d代表的是任意一个数字,0~9;\w任意一个字母或数字或下划线,也就是 A~Z,a~z,0~9,_ 中任意一个;\s包括空格、制表符、换页符等空白字符的其中任意一个。
\b 匹配一个单词边界,也就是单词和空格之间的位置,不匹配任何字符;
.小数点可以匹配除了换行符(\n)以外的任意一个字符。
贪婪与非贪婪模式
贪婪模式和非贪婪模式的区别在于:贪婪模式总是趋向于匹配更长的长度。
String str="abcaxc";
Patter p="ab*c";
如果是贪婪模式,匹配的就是”abcaxc”,abxxxxc;
如果是非贪婪模式,匹配的就是”abc”,abc。
正则表达式默认是贪婪模式,如果在量词后面直接加上一个问号,就是非贪婪模式。
贪婪模式 \".+\"
非贪婪模式 \".+?\"
2017/11/15 22:32:05 @Author:云都小生