正则表达式:又称规则表达式,英文名为Regular Expression,在代码中通常被用来检索、替换那些符合某个模式(规则)的文本。
通俗理解:正则表达式是用于文本匹配的工具。
简单的正则表达式:
例:him,history,high,hi在这个字符串中匹配出hi
正则表达式:hi
若要精确的匹配出hi,正则表达式:\bhi\b
\b是正则表达式规定的一个特殊代码,我们把它叫做元字符,单词的开头或结尾,也就是单词的分界处,它只匹配一个位置
元字符的讲解:
代码 说明
. 匹配除换行符以外的任意字符
\w 匹配数字或字母或下划线或汉字
\s 匹配任意的空白符
\d 匹配数字
^ 匹配字符串的开始
$ 匹配字符串的结束
字符转义’\’:如果你想查找元字符本身的话,比如你查找.或者*,就出现了问题,你没法指定她们,因为她们会被解释成其他意思。这时你就必须使用转义字符\来取消这些字符的特殊意义。因此,你应该使用\.和\*。
当然,要查找\本身,你也得用\\
常用的限定符(重复)
代码 说明
* 重复零次或者更多次
+ 重复一次或者更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或者更多次
{n.m} 重复n到m次
问题:写一个正则表达式用于匹配几种格式的电话号码,例:(010)88886666,或022-22334455,或02912345678
答案:\(?0\d{2}[)-]?\d{8}
反义字符:
代码&语法 说明
\W 匹配任意不是字母、数字、下划线、汉字的字符
\S 匹配任意不是空白符的字符
\D 匹配任意非数字的字符
\B 匹配不是单词开头或结束的位置
[^x] 匹配除了x字符以外的任意字符
[^aeiou] 匹配除了aeiou这几个字母以外的任意字符
解释:<a[^>]+> 匹配用尖括号括起来的以a开头的字符串 <adfg>dt>wer
分组语法:
零宽断言
(?=exp) 匹配exp前面的位置
(?<=exp) 匹配exp后面的位置
(?!exp) 匹配后面跟的不是exp的位置
(?<!exp) 匹配前面不是exp的位置
例:<img οnlοad="AutoResizeImage(200,200,this)"src="/Document/Title/Temp/2017-12-114bc5.png" >
请匹配出:οnlοad="AutoResizeImage(200,200,this)"
正则表达式:onload.+(?=src)
请匹配出:2017-12-114bc5.png
正则表达式:(?<=Document/Title/Temp/).+(?=\")
贪婪与懒惰
贪婪:当正则表达式中包含能接受重复的限定符时,通常的行为是(在使整个表达式能得到匹配的前提下)匹配尽可能多的字符,这被称为贪婪匹配。
懒惰:有时,我们更需要懒惰匹配,也就是匹配尽可能少的字符。
如果将前面给出的限定符转化为懒惰匹配模式,只要在它后面加上一个问号‘?’
懒惰限定符:
*? 重复任意次,但尽可能少重复
+? 重复1次或更多次,但尽可能少重复
?? 重复0次或1次,但尽可能少重复
{n,m} 重复n到m次,但尽可能少重复
{n,}? 重复n次以上,但尽可能少重复
例:<img οnlοad="AutoResizeImage(200,200,this)"src="/Document/Title/Temp/2017-12-114bc5.png" >
<img οnlοad="AutoResizeImage(200,200,this)"src="/Document/Title/Temp/2017-12-114bc5.png" >
<img οnlοad="AutoResizeImage(200,200,this)"src="/Document/Title/Temp/2017-12-114bc5.png" >
请匹配出:2017-12-114bc5.png
上面的正则表达式:(?<=Document/Title/Temp/).+(?=\")
正确的正则表达式:(?<=Document/Title/Temp/).+?(?=\")