正则表达式(Regular Expression) 简明教程

最新推荐文章于 2024-11-06 07:24:49 发布

EvanStark

最新推荐文章于 2024-11-06 07:24:49 发布

阅读量544

点赞数

分类专栏：工具文章标签：正则表达式 RE 正则教程

本文链接：https://blog.youkuaiyun.com/wukong2877/article/details/102528960

版权

工具专栏收录该内容

4 篇文章

订阅专栏

本文是正则表达式的简明教程，介绍了正则表达式的基本概念、图形化工具、语法，包括原义字符、转义字符、字符集合、量词、贪婪与非贪婪模式等，并提供了一些实例和图形化工具帮助理解。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

正则表达式(Regular Expression) 简明教程

文章目录

正则表达式(Regular Expression) 简明教程
@[toc]
1. 什么是正则表达式?
2. 图形化工具理解正则表达式
3. 正则表达式语法
3.1 原义字符
3.2 转义字符
3.3 字符集合`[]`
3.4 内置字符集
3.5 量词
3.6 贪婪与非贪婪
贪婪模式
非贪婪模式

3.7 字符边界
3.8 选择表达式
3.9 分组与引用
分组
回溯引用

3.10 预搜索
3.11 修饰符

4. 参考文章

1. 什么是正则表达式?

正则表达式，又称正规表示式、正规表示法、正规表达式、规则表达式、常规表示法（英语：Regular Expression，在代码中常简写为regex、regexp或RE），计算机科学的一个概念。正则表达式使用单个字符串来描述、匹配一系列匹配某个句法规则的字符串。在很多文本编辑器里，正则表达式通常被用来检索、替换那些匹配某个模式的文本。

通俗的讲就是按照某种规则去匹配符合条件的字符串

正则表达式的语法一般如下(js)，两条斜线中间是正则主体，这部分可以有很多字符组成；i部分是修饰符，i的意思表示忽略大小写

/^abc/i

正则定义了很多特殊意义的字符，有名词，量词，谓词等，后面逐一介绍

2. 图形化工具理解正则表达式

辅助理解正则表达式的在线工具： regexper

常用正则表达式

URL分组替换

/http:(\/\/.+\.jpg)/

正则表达式中括号用来分组，这个时候我们可以通过用$1来获取 group#1的内容

日期匹配与分组替换

/^\d{4}[/-]\d{2}[/-]\d{2}$/

正则分析如下：

Start of line 是由^生效的表示以此开头
对应结尾End of line 由$生效表示以此结尾
接着看digit 由 \d 生效表示数字
3times 由{4} 生效表示重复4次，digit 传过一次，3times表示再来三次循环，共4次，后面的once同理。
接下来，是 one of 在手机正则里面已经出现了。表示什么都行。只要符合这两个都让通过。

利用此正则，我们可以验证日期的合法性

结合URL分组替换所用到的分组特性，我们可以轻松写出日期格式化的方法

改造下这个正则

/^(\d{4})[/-](\d{2})[/-](\d{2})$/

拿到 group#1 #2 #3 的内容，对应 $1 $2 $3

3. 正则表达式语法

3.1 原义字符

没有特殊意义的字符都是简单字符，简单字符就代表自身，绝大部分字符都是简单字符，举个例子

/abc/ // 匹配 abc
/123/ // 匹配 123
/-_-/ // 匹配 -_-
/海镜/ // 匹配 海镜

3.2 转义字符

\是转义字符，其后面的字符会代表不同的意思。它将下一个字符标记为一个特殊字符、或一个原义字符、或一个向后引用、或一个八进制转义符。例如，n”匹配字符“n”。“\n”匹配一个换行符。序列“\\”匹配“\”而“\(”则匹配“(”。

转义字符主要有三个作用：

为了匹配不方便显示的特殊字符，比如换行 \n ，tab符号 \t 等
正则中预先定义了一些代表特殊意义的字符，比如\w等
在正则中某些字符有特殊含义(比如下面说到的)，转义字符可以让其显示自身的含义

常用转义字符列表：

转义字符	描述
\n	匹配换行符。等价于 \x0a 和 \cJ。
\f	匹配一个换页符。等价于 \x0c 和 \cL。
\r	匹配回车符。等价于 \x0d 和 \cM。
\r\n	匹配一个“回车+换行”的组合
	在Windows里面，\r\n是文本行结束标签，\r\n\r\n匹配的是两行之间的空白行
	在Unix\Linux里面，\n是文本行结束标签，\n\n匹配的就是两行之间的空白行
\s	匹配任何空白字符，包括空格、制表符、换页符等等。等价于 [ \f\n\r\t\v]。
\S	匹配任何非空白字符。等价于 [^ \f\n\r\t\v]。
\t	匹配制表符，也就是tab键。等价于 \x09 和 \cI。
\v	匹配垂直制表符。等价于 \x0b 和 \cK。
\w	匹配任何一个字母或者数字或者下划线
\W	匹配任何一个字母或者数字或者下划线以外的字符
\d	匹配数字字符，0~9
\D	匹配非数字字符
\b	匹配单词的边界
\B	匹配非单词边界
\	匹配\本身
\0	前缀\0匹配八进制，例如\011匹配ASCII字符9（制表符）
\x	前缀\x匹配十六进制，例如\x0A对应ASCII字符10（换行符）
\u002B	002B是4位16进制数字，代表对应的字符
\cx	匹配由x指明的控制字符。例如， \cM 匹配一个 Control-M 或回车符。x 的值必须为 A-Z 或 a-z 之一。否则，将 c 视为一个原义的 ‘c’ 字符。

举个栗子：

3.3 字符集合`[]`

有时我们需要匹配一类字符，字符集可以实现这个功能，字符集的语法用[]分隔。

这个符号用来表示逻辑关系或，比如[abc]表示a或者b或c.[-.]表示符号-或者.号(注意这里，在[]中的.号代表的就是这个符号，但是如果在其外面，表示个匹配所有。所以如果不在[]之中，想要匹配’.’，就要通过转意符号.)

这里还是要说明，在[]中，特殊字符不需要转义，可以直接使用，比如[.()],但是在外面，是需要转义的( .等

例如：匹配a或b或c

[abc]

如果要表示字符很多，可以使用-表示一个范围内的字符。如果只是想匹配-在范围类最后加-即可。

下面两种表示效果一致

[0123456789]
[0-9]

在前面添加^，可表示非的意思。

下面的代码能够匹配a``b``c之外的任意字符，包括空格

[^abc]

3.4 内置字符集

常用为了方便书写

字符	等价类	含义
`.`	`[^\n\r]`	除了回车符和换行符之外的所有字符
`\d`	`[0-9]`	数字字符
`\D`	`[^0-9]`	非数字字符
`\s`	`[\f\n\r\t\v]`	空白符
`\S`	`[^\f\n\r\t\v]`	非空白符
`\w`	`[a-zA-Z0-9_]`	单词字符（字母、数字、下划线）
`\W`	`[^a-zA-Z0-9_]`	非单词字符

有了这些内置字符集，写一些正则就很方便了，比如我们希望匹配一个 ab+数字+任意字符的字符串，就可以这样写了 /ab\d./

3.5 量词

如果需要匹配多次某个字符，正则也提供了量词的功能，正则中的量词有多个，如?、+、*、{n}、{m,n}、{m,}

字符	含义
{n}	出现n次，比如`a{2}`，匹配`aa`
{m,n}	至少出现m次但不超过n次，优先匹配n次。比如`a{1,3}`，可以匹配`aaa`、`aa`、`a`
{n,}	至少出现n次(+的升级版)。匹配n-∞次，优先匹配∞次，比如`a{1,}`，可以匹配`aaaa...`
{0,n}	至多出现n次(其实就是{m,n} 方便记忆而已)
?	出现0次或1次，优先匹配1次，相当于`{0,1}`
+	出现至少1次及以上。匹配1-n次，优先匹配n次，相当于`{1,}`
*	出现任意次。匹配0-n次，优先匹配n次，相当于`{0,}`

3.6 贪婪与非贪婪

贪婪模式

正则表达式默认匹配贪婪模式，也就是说匹配尽可能多的情况。

例1：

/\d{3,6}/

例2：

a{1, 3} // 匹配字符串'aaa'的话，会匹配aaa而不是a

贪婪模式下，匹配的了最多的情况。

非贪婪模式

与贪婪模式相对应的就是非贪婪模式，也就是说匹配尽可能少的情况。

在量词后面加?，就可开启非贪婪模式

例1：

/\d{3,6}/

例2：

a{1, 3}? // 匹配字符串'aaa'的话，会匹配a而不是aaa

如果想知道，正则表达式是如何匹配量词的，请看进阶正则表达式文中有介绍，正则是如何回溯的。

3.7 字符边界

有时我们会有边界的匹配要求，比如以xxx开头，以xxx结尾

字符	含义
`^`	以xxx开头
`$`	以xxx结尾
`\b`	单词边界，指[a-zA-Z_0-9]之外的字符
`\B`	非单词边界

^在[]外表示匹配开头的意思

^abc // 可以匹配abc，但是不能匹配aabc

$表示匹配结尾的意思

abc$ // 可以匹配abc，但是不能匹配abcc

\b表示单词的边界

abc\b // 可以匹配 abc ，但是不能匹配 abcc

演示下\b与\B 的区别：

3.8 选择表达式

有时我们想匹配x或者y，如果x和y是单个字符，可以使用字符集，[abc]可以匹配a或b或c，如果x和y是多个字符，字符集就无能为力了，此时就要用到分组

正则中用|来表示分组，a|b表示匹配a或者b的意思

123|456|789 // 匹配 123 或 456 或 789

3.9 分组与引用

分组

分组，又称为子表达式，是正则中非常强大的一个功能，可以让上面提到的量词作用于一组字符，而非单个字符，分组的语法是圆括号包裹(xxx)

举个栗子：

不分组 /abc{2}/

量词仅作用到最后的c

分组 /(abc){2}/

(abc){2} // 匹配abcabc

分组不能放在[]中，分组中还可以使用选择表达式

(123|456){2} // 匹配 123123、456456、123456、456123

回溯引用

当一个正则表达式被分组后，每个分组默认都是捕获的，会自动被赋予一个组号，从左到右分别是 $1 $2…

在分组的(后面添加?:可以让分组变为非捕获分组，非捕获分组可以提高性能和简化逻辑。

'123'.match(/(?:123)/) // 返回 ['123']
'123'.match(/(123)/)  // 返回 ['123', '123']

举个栗子：

/^(\d{4})[/-](\d{2})[/-](\d{2})$/

轻松拿到 group#1 #2 #3 的内容，对应 $1 $2 $3

如果在反向引用中不想捕获应该如何操作? 加上 ?:即可

/^(?:\d{4})[/-](\d{2})[/-](\d{2})$/

和分组相关的另一个概念是引用，比如在匹配html标签时，通常希望<xxx></xxx>后面的xxx能够和前面保持一致

引用的语法是\数字，数字代表引用前面第几个捕获分组，注意非捕获分组不能被引用

<([a-z]+)><\/\1> // 可以匹配 `<span></span>` 或 `<div></div>`等

回溯引用允许正则表达式引用前面的匹配结果

\1表示第一个子表达式，\2表示第二个子表达式，如此类推

\0在很多实现里面，可以用来表示整个正则表达式

某些实现里面，回溯引用用$来代替\

3.10 预搜索

如果你想匹配xxx前不能是yyy，或者xxx后不能是yyy，那就要用到预搜索

js只支持正向预搜索，也就是xxx后面必须是yyy，或者xxx后面不能是yyy

1(?=2) // 可以匹配12，不能匹配22
1(?!2) // 可以匹配22，不能匹配12

题目：如何将’123456’转成货币带逗号的。‘123,456’。这个是很常规格式化金额的需求。

如果在没有学习正则之前，我的思路是：

字符串转数组
反转数组
每隔三个添加个逗号
添加完了反转数组
数组转字符串

好累～～～

今天学习了正则，可以一步到位 '123456789'.replace(/(\d)(?=(?:\d{3})+$)/g, '$1,')

3.11 修饰符

修饰符与其他语法特殊，字面方法声名的时候放到/后，构造函数声明的时候，作为第二个参数传入。整个正则表达式可以理解为正则表达式规则字符串+修饰符。

/xxx/gi // 最后面的g和i就是两个修饰符

g：global 执行一个全局匹配（正则遇到第一个匹配的字符就会结束，加上全局修复符，可以让其匹配到结束）
i：ignore case执行一个不区分大小写的匹配（正则默认是区分大小写的，i可以忽略大小写）
m：multiple lines多行匹配（正则默认情况下，^和 $只能匹配字符串的开始和结尾，m修饰符可以让^和$ 匹配行首和行尾）

修饰符可以一起用 const reg =/\bis\b/gim

有g和没有g的区别

没有g只替换了第一个，有g 所有的都换了

有i和没有i的区别

有i忽略大小写，没有i严格区分大小写

有m和没有m的区别

/jing$/ // 能够匹配 'yanhaijing，不能匹配 'yanhaijing\n'
/jing$/m // 能够匹配 'yanhaijing， 能够匹配 'yanhaijing\n'

/^jing/ // 能够匹配 'jing'，不能匹配 '\njing'
/^jing/m // 能够匹配 'jing'，能够匹配 '\njing'