正则表达式入门

最新推荐文章于 2025-03-13 15:42:09 发布

翻译最新推荐文章于 2025-03-13 15:42:09 发布 · 309 阅读

·

0

·

基础原理同时被 2 个专栏收录

19 篇文章

订阅专栏

1 篇文章

订阅专栏

一.基础知识

字符是计算机软件处理文字时最基本的单位，可能是字母，数字，标点符号，空格，换行符，汉字等等。

字符串是0个或更多个字符的序列。

文本也就是文字，字符串。

说某个字符串匹配某个正则表达式，通常是指这个字符串里有一部分（或几部分分别）能满足表达式给出的条件。

元字符，metacharacter

二.正则表达式是什么

在编写处理字符串的程序或网页时，经常会有查找符合某些复杂规则的字符串的需要。正则表达式就是用于描述这些规则的工具。换句话说，正则表达式就是记录文本规则的代码。

很可能你使用过Windows/Dos下用于文件查找的通配符(wildcard)，也就是*和?。如果你想查找某个目录下的所有的Word文档的话，你会搜索*.doc。在这里，*会被解释成任意的字符串。和通配符类似，正则表达式也是用来进行文本匹配的工具，只不过比起通配符，它能更精确地描述你的需求——当然，代价就是更复杂——比如你可以编写一个正则表达式，用来查找所有以0开头，后面跟着2-3个数字，然后是一个连字号“-”，最后是7或8位数字的字符串(像010-12345678或0376-7654321)。

三.正则表达式常用元字符

\b 单词的开头或结尾，也就是单词的分界处

. 除了换行符以外的任意字符

* 前边的内容可以连续重复使用任意次以使整个表达式得到匹配

+ 前边的内容可以连续重复1次或更多次（不同于*，*可以是任意次，而+不能是一次）

.* 任意数量的不包含换行的字符

\d 一位数字(0，或1，或2，或……)

- 不是元字符，只匹配它本身——连字符(或者减号，或者中横线，或者随你怎么称呼它)

\s 任意的空白符，包括空格，制表符(Tab)，换行符，中文全角空格等

\w 字母或数字或下划线或汉字等。

^ 匹配字符串的开始

$ 匹配字符串的结束

{5,12} 重复的次数不能少于5次，不能多于12次

四.正则表达式例子

hi 由两个字符组成，前一个字符是h,后一个是i

\bhi\b 精确地查找hi这个单词

\bhi\b.*\bLucy\b 先是一个单词hi,然后是任意个任意字符(但不能是换行)，最后是Lucy这个单词

0\d\d-\d\d\d\d\d\d\d\d 以0开头，然后是两个数字，然后是一个连字号“-”，最后是8个数字

0\d{2}-\d{8} 当然也可以写成这样

\ba\w*\b 以字母a开头的单词——先是某个单词开始处(\b)，然后是字母a,然后是任意数量的字母或数字(\w*)，最后是单词结束处(\b)

\d+ 1个或更多连续的数字

\b\w{6}\b 刚好6个字符的单词

五.字符转义

如果你想查找元字符本身的话，比如你查找.,或者*,就出现了问题：你没办法指定它们，因为它们会被解释成别的意思。这时你就得使用\来取消这些字符的特殊意义。因此，你应该使用\.和\*。当然，要查找\本身，你也得用\\.

六.正则表达式中的限定符

* 重复零次或更多次

+ 重复一次或更多次

? 重复零次或一次

{n} 重复n次

{n,} 重复n次或更多次

{n,m} 重复n到m次

六.查找没有预定义元字符的字符集合（比如元音字母a,e,i,o,u）

只需要在方括号里列出它们就行了

eg. [aeiou] 任何一个英文元音字母

[.?!] 标点符号(.或?或!)

[0-9] 一位数字

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。