十、正则表达式详解：掌握强大的文本处理工具（二）

原创于 2023-07-19 09:30:13 发布 · 510 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#正则表达式 #爬虫

爬虫专栏收录该内容

15 篇文章

订阅专栏

本文详细介绍了正则表达式的多字符匹配规则，如星号、加号等；匹配规则的代替，像\\d可用[0 - 9]代替；还有特殊匹配及特殊匹配plus。还提到search()遍历方式、以特定字符结尾提取数据等，最后预告下节介绍贪婪与非贪婪模式。

文章目录

🍀多字符匹配
🍀匹配规则的代替
🍀特殊的匹配
🍀特殊的匹配plus
🍀总结

🍀多字符匹配

星号（*）：匹配0个或者多个字符

import re

text = '111-222-333'
result = re.match('[\d]', text) # 没有*，匹配第一个
result1 = re.match('[\d]*', text)  # 有*，从起始位置开始，匹配0或者多次
result2 = re.match('[-\d]*', text)   # 有*，从起始位置开始，匹配0或者多次
result3 = re.match('[-]*', text)  # 有*，从起始位置开始，匹配0或者多次
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))
print(result2.group(),len(result2.group()))
print(result3.group(),len(result3.group()))

运行结果如下
在这里插入图片描述

注意:匹配不出来，只不过是空，并不会报错

加号（+）：匹配一个或者多个

text = 'Q111-222-333'
result = re.match('[Q\d]+', text)
result1 = re.match('[\d]+', text)
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))

运行结果如下

在这里插入图片描述

注意：有+，对[]里的内容匹配一次或者多次（至少一次）、从起始位置开始

问号（？）：匹配0个或者1个

text = 'Q111-222-333'
result = re.match('[Q\d]?', text)
result1 = re.match('[\d]?', text)
print(result.group(),len(result.group()))
print(result1.group(),len(result1.group()))

运行结果如下

在这里插入图片描述

注意：从起始位置开始，和*有一点相近

{m}：匹配指定个数m

text = 'Q111-222-333'
result = re.match('[Q\d]{2}', text)
result1 = re.match('[Q\d]{5}', text)
print(result.group(),len(result.group()))
print(result1.group(1),len(result1.group()))

运行结果如下

在这里插入图片描述

注意：从起始位置

{m,n}：匹配m到n个，默认匹配最多次

text = '111-222-333'
text1 = '111-2^22-333'
result = re.match('[-\d]{2,8}', text)
result1 = re.match('[-\d]{2,8}', text1)
print(result.group())
print(result1.group())

运行结果如下
在这里插入图片描述

注意：若内容存在不属于规则的内容，则停止，直接输出

🍀匹配规则的代替

\d------[0-9]：匹配所有的数字

text = '111-222-333'
result = re.match('[-0-9]*', text)
print(result.group())

运行结果如下

在这里插入图片描述
注意：这里经常与（*）进行搭配，进而匹配多次数字

\D----[^0-9]：匹配所有的非数字

text = '111-222-333'
result = re.match('[^0-9]+', text)
print(result.group())

运行结果如下

在这里插入图片描述

注意：这里经常配合+（1次或多次），匹配1次或多次非数字字符；其实也可以配合*（0次或多次），匹配0次或多次非数字字符

\w-----[0-9a-zA-Z_]:匹配所有数字、字母、下划线

text = '111-222-333'
result = re.match('[0-9a-zA-Z_]+', text)
print(result.group())

运行结果如下
在这里插入图片描述
注意：减号不在匹配范围之内

\W-----[^0-9a-zA-Z]:匹配所有非数字、字母和下划线

text = '111-222-333'
result = re.match('[^0-9a-zA-Z_]+', text)
print(result.group())

运行结果如下
在这里插入图片描述
注意：这里和之前那个有相似之处，主要是因为+，这里的+是匹配至少一次，然而一开始检索就没找到，自然报错了

[\d\D]、[\w\W]：匹配所有的字符

text = '111-222-333'
result = re.match('[\w\W]+', text)
print(result.group())

运行结果如下
在这里插入图片描述

所以说还是这个牛吧

🍀特殊的匹配

例子如下：

text = '111-222-333'
text1 = '....111-222-333'
result = re.match('[.]+', text)
result1 = re.match('.+', text)
result2= re.match('[.]+', text1)
print(result1.group())
print('*')
print(result2.group())
print('*')
print(result.group())

运行结果如下
在这里插入图片描述
注意：去掉中括号后，点表示所有字符再配上+匹配所有字符，但是中括号加上点后代表的就是匹配点了，然而text1并没有，所有遵循+的规则至少一个，所以报错

感兴趣的小伙伴可以自己试着来，将手机号、邮箱、身份证号码的规则自己写出来

🍀特殊的匹配plus

全局遍历

text = 'Hello HeWord'
result = re.search('He', text)
print(result.group())

运行结果如下
在这里插入图片描述
注意：search（）是从左到右进行字符串遍历，找到就返回，若后续再出现，也不再返回结果

$：以某某为结尾

text = 'HelloHeWord@163.com'
result = re.search('[\w]+@[a-z0-9]+[.]com$', text)
print(result.group())

运行结果如下

在这里插入图片描述
注意：以com为结尾提取数据，若不是以该词结尾就会报错

|：匹配多个表达式或者字符串

text = 'https://www.baidu.com'
result = re.search('[https|http]',text)
print(result.group())

运行结果如下
在这里插入图片描述

text = 'https://www.baidu.com'
result = re.search('[https|http]+',text)
print(result.group())

运行结果如下
在这里插入图片描述

text = 'https://www.baidu.com'
result = re.search('(https|http)',text)
print(result.group())

运行结果如下
在这里插入图片描述
综上所述：中括号是将里面看成一个字符串，小括号则以|为标准分层若干字符串

🍀总结

本节介绍了多字符匹配，其中包括星号、加号等；匹配规则的代替，例如\d可以使用[0-9]代替使用；以及特殊的匹配。下节介绍贪婪模式与非贪婪模式，曾有大佬说明，不了解贪婪模式和非贪婪模式，就无法进行爬虫

如果没看过正则表达式详解：掌握强大的文本处理工具（二）的小伙伴，可以看看，感谢支持！！！

请添加图片描述

挑战与创造都是很痛苦的，但是很充实。