正则之字符匹配

最新推荐文章于 2025-04-19 20:18:24 发布

小小和平

最新推荐文章于 2025-04-19 20:18:24 发布

阅读量1.4k

点赞数 1

文章标签：正则表达式 javascript html5

本文链接：https://blog.youkuaiyun.com/weixin_42542616/article/details/107954781

版权

本文详细介绍了正则表达式的字符匹配，包括模糊匹配的两种方式、字符组、范围表示法、排除字符组以及量词的使用。同时，讲解了位置匹配的相关内容，如开始与结束符号、单词边界以及正向与负向前瞻。通过实例解析了正则表达式的强大功能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正则表达式字符匹配

两种模糊匹配

如果正则只有精确匹配是没多大意义的，比如/hello/，也只能匹配字符串中的"hello"这个子串

var regex = /hello/;
console.log(regex.test("hello"));
// => true

正则表达式之所以强大，是因为其能实现模糊匹配
而模糊匹配，有两个方向上的“模糊”：横向模糊和纵向模糊

横向模糊匹配

横向模糊指的是，一个正则可匹配的字符串的长度不是固定的，可以是多种情况的

其实现的方式是使用量词。譬如{m,n}，表示连续出现最少 m 次，最多 n 次

比如/ab{2,5}c/表示匹配这样一个字符串：第一个字符是“a”，接下来是 2 到 5 个字符“b”，最后是字符“c”。测试如下

var regex = /ab{2,5}c/g;
var string = "abc abbc abbbc abbbbc abbbbbc abbbbbbc";
console.log(string.match(regex));
// => ["abbc", "abbbc", "abbbbc", "abbbbbc"]

纵向模糊匹配

纵向模糊指的是，一个正则匹配的字符串，具体到某一位字符时，它可以不是某个确定的字符，可以有多种可能

其实现的方式是使用字符组。譬如[abc]，表示该字符是可以字符“a”、“b”、“c”中的任何一个

var regex = /a[123]b/g;
var string = "a0b a1b a2b a3b a4b";
console.log(string.match(regex));
// => ["a1b", "a2b", "a3b"]

字符组

需要强调的是，虽叫字符组（字符类），但只是其中一个字符。例如[abc]，表示匹配一个字符，它可以是“a”、“b”、“c”之一

范围表示法

如果字符组里的字符特别多的话，怎么办？可以使用范围表示法

如果字符组里的字符特别多的话，怎么办？可以使用范围表示法

比如[123456abcdefGHIJKLM]，可以写成[1-6a-fG-M]。用连字符-来省略和简写

因为连字符有特殊用途，那么要匹配“a”、“-”、“z”这三者中任意一个字符，该怎么做呢？

不能写成[a-z]，因为其表示小写字符中的任何一个字符。

可以写成如下的方式：[-az]或[az-]或[a-z]。即要么放在开头，要么放在结尾，要么转义。总之不会让引擎认为是范围表示法就行了

排除字符组

纵向模糊匹配，还有一种情形就是，某位字符可以是任何东西，但就不能是"a"、“b”、“c”

此时就是排除字符组（反义字符组）的概念。例如[^{abc]，表示是一个除"a"、“b”、"c"之外的任意一个字符。字符组的第一位放}（脱字符），表示求反的概念

常见的简写形式

\d 就是[0-9]。表示是一位数字。记忆方式：其英文是 digit（数字）
D 就是[^0-9]。表示除数字外的任意字符

\w 就是[0-9a-zA-Z_]。表示数字、大小写字母和下划线。记忆方式：w 是 word 的简写，也称单词字符。

`W 是[^0-9a-za-z_]。非单词字符

\s 是[ \t\v\n\r\f]。表示空白符，包括空格、水平制表符、垂直制表符、换行符、回车符、换页符。记忆方式：s 是 space character 的首字母

\S 是[^ \t\v\n\r\f]。非空白符

.就是[^\n\r\u2028\u2029]。通配符，表示几乎任意字符。换行符、回车符、行分隔符和段分隔符除外。记忆方式：想想省略号…中的每个点，都可以理解成占位符，表示任何类似的东西

如果要匹配任意字符怎么办？可以使用[\d\D]、[\w\W]、[\s\S]和[^]中任何的一个。

量词

简写形式

{m,}表示至少出现 m 次

{m} 等价于{m,m}，表示出现 m 次

? 等价于{0,1}，表示出现或者不出现。记忆方式：问号的意思表示，有吗？

-等价于{1,}，表示出现至少一次。记忆方式：加号是追加的意思，得先有一个，然后才考虑追加

*等价于{0,}，表示出现任意次，有可能不出现。记忆方式：看看天上的星星，可能一颗没有，可能零散有几颗，可能数也数不过来

贪婪匹配和惰性匹配

var regex = /\d{2,5}/g;
var string = "123 1234 12345 123456";
console.log(string.match(regex));
// => ["123", "1234", "12345", "12345"]
//其中正则/\d{2,5}/，表示数字连续出现2到5次。会匹配2位、3位、4位、5位连续数字
//但是其是贪婪的，它会尽可能多的匹配。你能给我6个，我就要5个。你能给我3个，我就3要个。反正只要在能力范围内，越多越好
//我们知道有时贪婪不是一件好事（请看文章最后一个例子）。而惰性匹配，就是尽可能少的匹配

var regex = /\d{2,5}?/g;
var string = "123 1234 12345 123456";
console.log(string.match(regex));
// => ["12", "12", "34", "12", "34", "12", "34", "56"]
//其中/\d{2,5}?/表示，虽然2到5次都行，当2个就够的时候，就不在往下尝试了

多选分支

例如要匹配"good"和"nice"可以使用/good|nice/。测试如下

var regex = /good|nice/g;
var string = "good idea, nice try.";
console.log(string.match(regex));
// => ["good", "nice"]
//分支结构也是惰性的，即当前面的匹配上了，后面的就不再尝试了

正则表达式位置匹配

$和^

^（脱字符）匹配开头，在多行匹配中匹配行开头

$（美元符号）匹配结尾，在多行匹配中匹配行结尾

比如我们把字符串的开头和结尾用"#"替换

var result = "hello".replace(/^|$/g, "#");
console.log(result);
// => "#hello#"

var result = "I\nlove\njavascript".replace(/^|$/gm, '#');
console.log(result);
/*
#I#
#love#
#javascript#
*

\b 和\B

\b 是单词边界，具体就是\w 和\W 之间的位置，也包括\w 和^之间的位置，也包括\w 和$之间的位置

比如一个文件名是"[JS] Lesson_01.mp4"中的\b，如下

var result = "[JS] Lesson_01.mp4".replace(/\b/g, "#");
console.log(result);
// => "[#JS#] #Lesson_01#.#mp4#"

(?=p)和(?!p)

(?=p)，其中 p 是一个子模式，即 p 前面的位置

比如(?=l)，表示’l’字符前面的位置

var result = "hello".replace(/(?=l)/g, "#");
console.log(result);
// => "he#l#lo"

而(?!p)就是(?=p)的反面意思，比如

var result = "hello".replace(/(?!l)/g, "#");

console.log(result);
// => "#h#ell#o#"

正则表达式括号的作用

分组

我们知道/a+/匹配连续出现的“a”，而要匹配连续出现的“ab”时，需要使用/(ab)+/

其中括号是提供分组功能，使量词+作用于“ab”这个整体，测试如下：

var regex = /(ab)+/g;
var string = "ababa abbb ababab";
console.log(string.match(regex));
// => ["abab", "ab", "ababab"]

分支结构

而在多选分支结构(p1|p2)中，此处括号的作用也是不言而喻的，提供了子表达式的所有可能

var regex = /^I love (JavaScript|Regular Expression)$/;
console.log(regex.test("I love JavaScript"));
console.log(regex.test("I love Regular Expression"));
// => true
// => true
//如果去掉正则中的括号，即 /^I love JavaScript|Regular Expression$/，匹配字符串是"I love JavaScript"和"Regular Expression"，当然这不是我们想要的