正则表达式字符匹配
两种模糊匹配
如果正则只有精确匹配是没多大意义的,比如/hello/,也只能匹配字符串中的"hello"这个子串
var regex = /hello/;
console.log(regex.test("hello"));
// => true
正则表达式之所以强大,是因为其能实现模糊匹配
而模糊匹配,有两个方向上的“模糊”:横向模糊和纵向模糊
-
横向模糊匹配
横向模糊指的是,一个正则可匹配的字符串的长度不是固定的,可以是多种情况的
其实现的方式是使用量词。譬如{m,n},表示连续出现最少 m 次,最多 n 次
比如/ab{2,5}c/表示匹配这样一个字符串:第一个字符是“a”,接下来是 2 到 5 个字符“b”,最后是字符“c”。测试如下
var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc";
console.log(string.match(regex));
// => ["abbc", "abbbc", "abbbbc", "abbbbbc"]
-
纵向模糊匹配
纵向模糊指的是,一个正则匹配的字符串,具体到某一位字符时,它可以不是某个确定的字符,可以有多种可能
其实现的方式是使用字符组。譬如[abc],表示该字符是可以字符“a”、“b”、“c”中的任何一个
var regex = /a[123]b/g;
var string = "a0b a1b a2b a3b a4b";
console.log(string.match(regex));
// => ["a1b", "a2b", "a3b"]
字符组
需要强调的是,虽叫字符组(字符类),但只是其中一个字符。例如[abc],表示匹配一个字符,它可以是“a”、“b”、“c”之一
范围表示法
-
如果字符组里的字符特别多的话,怎么办?可以使用范围表示法
如果字符组里的字符特别多的话,怎么办?可以使用范围表示法
比如[123456abcdefGHIJKLM],可以写成[1-6a-fG-M]。用连字符-来省略和简写
因为连字符有特殊用途,那么要匹配“a”、“-”、“z”这三者中任意一个字符,该怎么做呢?
不能写成[a-z],因为其表示小写字符中的任何一个字符。
可以写成如下的方式:[-az]或[az-]或[a-z]。即要么放在开头,要么放在结尾,要么转义。总之不会让引擎认为是范围表示法就行了
排除字符组
纵向模糊匹配,还有一种情形就是,某位字符可以是任何东西,但就不能是"a"、“b”、“c”
此时就是排除字符组(反义字符组)的概念。例如[abc],表示是一个除"a"、“b”、"c"之外的任意一个字符。字符组的第一位放(脱字符),表示求反的概念
常见的简写形式
\d 就是[0-9]。表示是一位数字。记忆方式:其英文是 digit(数字)
D 就是[^0-9]。表示除数字外的任意字符
\w 就是[0-9a-zA-Z_]。表示数字、大小写字母和下划线。记忆方式:w 是 word 的简写,也称单词字符。
`W 是[^0-9a-za-z_]。非单词字符
\s 是[ \t\v\n\r\f]。表示空白符,包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。记忆方式:s 是 space character 的首字母
\S 是[^ \t\v\n\r\f]。 非空白符
.就是[^\n\r\u2028\u2029]。通配符,表示几乎任意字符。换行符、回车符、行分隔符和段分隔符除外。记忆方式:想想省略号…中的每个点,都可以理解成占位符,表示任何类似的东西
如果要匹配任意字符怎么办?可以使用[\d\D]、[\w\W]、[\s\S]和[^]中任何的一个。
量词
简写形式
{m,}表示至少出现 m 次
{m} 等价于{m,m},表示出现 m 次
? 等价于{0,1},表示出现或者不出现。记忆方式:问号的意思表示,有吗?
-等价于{1,},表示出现至少一次。记忆方式:加号是追加的意思,得先有一个,然后才考虑追加
*等价于{0,},表示出现任意次,有可能不出现。记忆方式:看看天上的星星,可能一颗没有,可能零散有几颗,可能数也数不过来
贪婪匹配和惰性匹配
var regex = /\d{2,5}/g;
var string = "123 1234 12345 123456";
console.log(string.match(regex));
// => ["123", "1234", "12345", "12345"]
//其中正则/\d{2,5}/,表示数字连续出现2到5次。会匹配2位、3位、4位、5位连续数字
//但是其是贪婪的,它会尽可能多的匹配。你能给我6个,我就要5个。你能给我3个,我就3要个。反正只要在能力范围内,越多越好
//我们知道有时贪婪不是一件好事(请看文章最后一个例子)。而惰性匹配,就是尽可能少的匹配
var regex = /\d{2,5}?/g;
var string = "123 1234 12345 123456";
console.log(string.match(regex));
// => ["12", "12", "34", "12", "34", "12", "34", "56"]
//其中/\d{2,5}?/表示,虽然2到5次都行,当2个就够的时候,就不在往下尝试了
多选分支
例如要匹配"good"和"nice"可以使用/good|nice/。测试如下
var regex = /good|nice/g;
var string = "good idea, nice try.";
console.log(string.match(regex));
// => ["good", "nice"]
//分支结构也是惰性的,即当前面的匹配上了,后面的就不再尝试了
正则表达式位置匹配
$和^
^(脱字符)匹配开头,在多行匹配中匹配行开头
$(美元符号)匹配结尾,在多行匹配中匹配行结尾
比如我们把字符串的开头和结尾用"#"替换
var result = "hello".replace(/^|$/g, "#");
console.log(result);
// => "#hello#"
var result = "I\nlove\njavascript".replace(/^|$/gm, '#');
console.log(result);
/*
#I#
#love#
#javascript#
*
\b 和\B
\b 是单词边界,具体就是\w 和\W 之间的位置,也包括\w 和^之间的位置,也包括\w 和$之间的位置
比如一个文件名是"[JS] Lesson_01.mp4"中的\b,如下
var result = "[JS] Lesson_01.mp4".replace(/\b/g, "#");
console.log(result);
// => "[#JS#] #Lesson_01#.#mp4#"
(?=p)和(?!p)
(?=p),其中 p 是一个子模式,即 p 前面的位置
比如(?=l),表示’l’字符前面的位置
var result = "hello".replace(/(?=l)/g, "#");
console.log(result);
// => "he#l#lo"
而(?!p)就是(?=p)的反面意思,比如
var result = "hello".replace(/(?!l)/g, "#");
console.log(result);
// => "#h#ell#o#"
正则表达式括号的作用
分组
我们知道/a+/匹配连续出现的“a”,而要匹配连续出现的“ab”时,需要使用/(ab)+/
其中括号是提供分组功能,使量词+作用于“ab”这个整体,测试如下:
var regex = /(ab)+/g;
var string = "ababa abbb ababab";
console.log(string.match(regex));
// => ["abab", "ab", "ababab"]
分支结构
而在多选分支结构(p1|p2)中,此处括号的作用也是不言而喻的,提供了子表达式的所有可能
var regex = /^I love (JavaScript|Regular Expression)$/;
console.log(regex.test("I love JavaScript"));
console.log(regex.test("I love Regular Expression"));
// => true
// => true
//如果去掉正则中的括号,即 /^I love JavaScript|Regular Expression$/,匹配字符串是"I love JavaScript"和"Regular Expression",当然这不是我们想要的