正则之字符匹配

本文详细介绍了正则表达式的字符匹配,包括模糊匹配的两种方式、字符组、范围表示法、排除字符组以及量词的使用。同时,讲解了位置匹配的相关内容,如开始与结束符号、单词边界以及正向与负向前瞻。通过实例解析了正则表达式的强大功能。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

正则表达式字符匹配

两种模糊匹配

如果正则只有精确匹配是没多大意义的,比如/hello/,也只能匹配字符串中的"hello"这个子串

var regex = /hello/;
console.log(regex.test("hello"));
// => true

正则表达式之所以强大,是因为其能实现模糊匹配
而模糊匹配,有两个方向上的“模糊”:横向模糊和纵向模糊

  • 横向模糊匹配

    横向模糊指的是,一个正则可匹配的字符串的长度不是固定的,可以是多种情况的

    其实现的方式是使用量词。譬如{m,n},表示连续出现最少 m 次,最多 n 次

    比如/ab{2,5}c/表示匹配这样一个字符串:第一个字符是“a”,接下来是 2 到 5 个字符“b”,最后是字符“c”。测试如下

var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc";
console.log(string.match(regex));
// => ["abbc", "abbbc", "abbbbc", "abbbbbc"]
  • 纵向模糊匹配

    纵向模糊指的是,一个正则匹配的字符串,具体到某一位字符时,它可以不是某个确定的字符,可以有多种可能

    其实现的方式是使用字符组。譬如[abc],表示该字符是可以字符“a”、“b”、“c”中的任何一个

var regex = /a[123]b/g;
var string = "a0b a1b a2b a3b a4b";
console.log(string.match(regex));
// => ["a1b", "a2b", "a3b"]
字符组

需要强调的是,虽叫字符组(字符类),但只是其中一个字符。例如[abc],表示匹配一个字符,它可以是“a”、“b”、“c”之一

范围表示法
  • 如果字符组里的字符特别多的话,怎么办?可以使用范围表示法

    如果字符组里的字符特别多的话,怎么办?可以使用范围表示法

    比如[123456abcdefGHIJKLM],可以写成[1-6a-fG-M]。用连字符-来省略和简写

    因为连字符有特殊用途,那么要匹配“a”、“-”、“z”这三者中任意一个字符,该怎么做呢?

    不能写成[a-z],因为其表示小写字符中的任何一个字符。

    可以写成如下的方式:[-az]或[az-]或[a-z]。即要么放在开头,要么放在结尾,要么转义。总之不会让引擎认为是范围表示法就行了

排除字符组

纵向模糊匹配,还有一种情形就是,某位字符可以是任何东西,但就不能是"a"、“b”、“c”

此时就是排除字符组(反义字符组)的概念。例如[abc],表示是一个除"a"、“b”、"c"之外的任意一个字符。字符组的第一位放(脱字符),表示求反的概念

常见的简写形式

\d 就是[0-9]。表示是一位数字。记忆方式:其英文是 digit(数字)
D 就是[^0-9]。表示除数字外的任意字符

\w 就是[0-9a-zA-Z_]。表示数字、大小写字母和下划线。记忆方式:w 是 word 的简写,也称单词字符。

`W 是[^0-9a-za-z_]。非单词字符

\s 是[ \t\v\n\r\f]。表示空白符,包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。记忆方式:s 是 space character 的首字母

\S 是[^ \t\v\n\r\f]。 非空白符

.就是[^\n\r\u2028\u2029]。通配符,表示几乎任意字符。换行符、回车符、行分隔符和段分隔符除外。记忆方式:想想省略号…中的每个点,都可以理解成占位符,表示任何类似的东西

如果要匹配任意字符怎么办?可以使用[\d\D]、[\w\W]、[\s\S]和[^]中任何的一个。

量词

简写形式

{m,}表示至少出现 m 次

{m} 等价于{m,m},表示出现 m 次

? 等价于{0,1},表示出现或者不出现。记忆方式:问号的意思表示,有吗?

-等价于{1,},表示出现至少一次。记忆方式:加号是追加的意思,得先有一个,然后才考虑追加

*等价于{0,},表示出现任意次,有可能不出现。记忆方式:看看天上的星星,可能一颗没有,可能零散有几颗,可能数也数不过来

贪婪匹配和惰性匹配
var regex = /\d{2,5}/g;
var string = "123 1234 12345 123456";
console.log(string.match(regex));
// => ["123", "1234", "12345", "12345"]
//其中正则/\d{2,5}/,表示数字连续出现2到5次。会匹配2位、3位、4位、5位连续数字
//但是其是贪婪的,它会尽可能多的匹配。你能给我6个,我就要5个。你能给我3个,我就3要个。反正只要在能力范围内,越多越好
//我们知道有时贪婪不是一件好事(请看文章最后一个例子)。而惰性匹配,就是尽可能少的匹配
var regex = /\d{2,5}?/g;
var string = "123 1234 12345 123456";
console.log(string.match(regex));
// => ["12", "12", "34", "12", "34", "12", "34", "56"]
//其中/\d{2,5}?/表示,虽然2到5次都行,当2个就够的时候,就不在往下尝试了
多选分支

例如要匹配"good"和"nice"可以使用/good|nice/。测试如下

var regex = /good|nice/g;
var string = "good idea, nice try.";
console.log(string.match(regex));
// => ["good", "nice"]
//分支结构也是惰性的,即当前面的匹配上了,后面的就不再尝试了

正则表达式位置匹配

$和^

^(脱字符)匹配开头,在多行匹配中匹配行开头

$(美元符号)匹配结尾,在多行匹配中匹配行结尾

比如我们把字符串的开头和结尾用"#"替换

var result = "hello".replace(/^|$/g, "#");
console.log(result);
// => "#hello#"

var result = "I\nlove\njavascript".replace(/^|$/gm, '#');
console.log(result);
/*
#I#
#love#
#javascript#
*
\b 和\B

\b 是单词边界,具体就是\w 和\W 之间的位置,也包括\w 和^之间的位置,也包括\w 和$之间的位置

比如一个文件名是"[JS] Lesson_01.mp4"中的\b,如下

var result = "[JS] Lesson_01.mp4".replace(/\b/g, "#");
console.log(result);
// => "[#JS#] #Lesson_01#.#mp4#"
(?=p)和(?!p)

(?=p),其中 p 是一个子模式,即 p 前面的位置

比如(?=l),表示’l’字符前面的位置

var result = "hello".replace(/(?=l)/g, "#");
console.log(result);
// => "he#l#lo"

而(?!p)就是(?=p)的反面意思,比如

var result = "hello".replace(/(?!l)/g, "#");

console.log(result);
// => "#h#ell#o#"

正则表达式括号的作用

分组

我们知道/a+/匹配连续出现的“a”,而要匹配连续出现的“ab”时,需要使用/(ab)+/

其中括号是提供分组功能,使量词+作用于“ab”这个整体,测试如下:

var regex = /(ab)+/g;
var string = "ababa abbb ababab";
console.log(string.match(regex));
// => ["abab", "ab", "ababab"]
分支结构

而在多选分支结构(p1|p2)中,此处括号的作用也是不言而喻的,提供了子表达式的所有可能

var regex = /^I love (JavaScript|Regular Expression)$/;
console.log(regex.test("I love JavaScript"));
console.log(regex.test("I love Regular Expression"));
// => true
// => true
//如果去掉正则中的括号,即 /^I love JavaScript|Regular Expression$/,匹配字符串是"I love JavaScript"和"Regular Expression",当然这不是我们想要的
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值