正则表达式

最新推荐文章于 2021-09-02 16:35:25 发布

云都小生

最新推荐文章于 2021-09-02 16:35:25 发布

阅读量307

点赞数

CC 4.0 BY-SA版权

分类专栏：正则表达式文章标签：正则表达式

本文链接：https://blog.youkuaiyun.com/Cloudkings/article/details/78545909

正则表达式专栏收录该内容

1 篇文章

订阅专栏

@Author:云都小生

概述

正则表达式是啥嘞？其实它也算一个微小且高度专业化的编程语言。它可以用来匹配/描述哪些你希望匹配的字符串，我们先来看几个例子。

场景1：在网页设计中，我们现在需要对用户输入进行验证，只要用户输入的不是8个数字就不能通过。这个我们怎么去检测？

再复杂点，我们想匹配邮件的格式，xxx@.com类似这种，但是不要.xxxx@.com这种··· 这个时候怎么办？

场景2：某个程序员想一个爬虫来挖掘一个网站中所有的IP地址，那我们应该怎么去匹配这些字符串？

正则表达式其实就是一套标准，可以通过这套标准，来描述、匹配某个字符串。

许多的编程语言都支持正则表达式，基本上都有正则表达式的身影。如果学会正则表达式，平时开发会更高效。

从元字符入手

首先我们需要认识一些元字符。

特别字符	描述
$	匹配输入字符串的结尾位置。若要匹配 $ 字符本身，请使用 \$。
( )	标记一个子表达式的开始和结束位置。子表达式可以获取供以后使用。要匹配这些字符，请使用 $ 和 $
*	匹配前面的子表达式零次或多次。要匹配 * 字符，请使用 \*
+	匹配前面的子表达式一次或多次。要匹配 + 字符，请使用 \+
.	匹配除换行符 \n 之外的任何单字符。要匹配 . ，请使用 \.
[	标记一个中括号表达式的开始。要匹配 [，请使用 \[
?	匹配前面的子表达式零次或一次，或指明一个非贪婪限定符。要匹配 ? 字符，请使用 \?
\	将下一个字符标记为或特殊字符、或原义字符、或向后引用、或八进制转义符。例如， ‘n’ 匹配字符 ‘n’。’\n’ 匹配换行符。序列 ‘\\’ 匹配 “\”，而 ‘\(’ 则匹配 “(“。
^	匹配输入字符串的开始位置，除非在方括号表达式中使用，此时它表示不接受该字符集合。要匹配 ^ 字符本身，请使用 \^。
{	标记限定符表达式的开始。要匹配 {，请使用 \{。
\|	指明两项之间的一个选择。要匹配 \|，请使用 \\|。

我们一个个来看，首先看看*、+、?和{}，这四个用于限定匹配的次数。

ab*c，这个就能匹配它前面的子表达式0次或多次，例如说ac、abc、abbbc都可以；
ab+c，这个只能匹配前面子表达式一次或多次，ac就这个时候就不行了，必须是abc、abbc····
ab?c，这个匹配的是子表达式零次或一次，ac可以，abc可以，abbc、abbbc就不可以了。
{n}，表示匹配前面的子表达式n次；
{n,m}，表示匹配前面的子表达式n~m次，最少n次，最多n次；
{n,}，表示匹配前面子表达式最少n次。
^和。
[]方括号可以包含一系列字符，能匹配其中任意一个字符。用[^]包含一系列字符，能够匹配除了其中字符外的任意一个字符。[A-Z]匹配的是大写A~大写Z。如果[^a-z]匹配除了a~z外的其他任意字符。[abc5@]可以匹配”a”、”b”、”c”、”5”、”@”。
|当出现这个时候，它的意思是，要么匹配左边的，要么匹配右边的。[a-z]|[A-Z]表示匹配a~z或者A-Z。

普通字符与转义字符

字母、数字、汉字、下划线、以及后边章节中没有特殊定义的标点符号，都是”普通字符”。表达式中的普通字符，在匹配一个字符串的时候，匹配与之相同的一个字符。

\r、\n代表回车和换行符，[\r\n]表示只匹配回车符和换行符；

\t代表制表符；

有一些在正则表达式中有特殊用途的，需要加上斜杠才能匹配自身，\^，匹配 ^ 符号本身；$匹配 $ 符号本身；.匹配小数点（.）本身。

除了这些，正则中还有一些其他的转义字符，\d代表的是任意一个数字，0~9；\w任意一个字母或数字或下划线，也就是 A~Z,a~z,0~9,_ 中任意一个；\s包括空格、制表符、换页符等空白字符的其中任意一个。

\b 匹配一个单词边界，也就是单词和空格之间的位置，不匹配任何字符；

.小数点可以匹配除了换行符（\n）以外的任意一个字符。

贪婪与非贪婪模式

贪婪模式和非贪婪模式的区别在于：贪婪模式总是趋向于匹配更长的长度。

String str="abcaxc";
Patter p="ab*c";

如果是贪婪模式，匹配的就是”abcaxc”，abxxxxc；
如果是非贪婪模式，匹配的就是”abc”，abc。

正则表达式默认是贪婪模式，如果在量词后面直接加上一个问号，就是非贪婪模式。

贪婪模式 \".+\"

非贪婪模式 \".+?\"

2017/11/15 22:32:05 @Author：云都小生