网络爬虫之基础库的使用(三)
正则表达式
正则表达式是处理字符串的工具,它有特定的语法结构,可以实现字符串检索,替换,匹配验证等
常用匹配规则
模式 | 描述 |
---|---|
\w | 匹配字母,数字和下划线 |
\W | 与\w相反,即不匹配 |
\s | 匹配空白字符,等价于[\t\n\r\f] |
\S | 匹配非空白字符 |
\d | 匹配任意数字,即[0-9] |
\D | 匹配非数字字符 |
\A | 匹配字符串开头 |
\Z | 匹配字符串结尾,如存在换行,则匹配到换行前结束的字符 |
\z | 匹配字符串结尾,如果存在换行,会匹配换行符 |
\G | 匹配最后匹配完成的位置 |
\n | 匹配一个换行符 |
\t | 匹配一个制表符 |
^ | 匹配一行字符串开头 |
$ | 匹配一行字符串结尾 |
. | 匹配任意字符,除换行符 |
[…] | 匹配一组字符,单独列出,如匹配wan,[wan] |
[^…] | 匹配不在[ ]中的字符 |
* | 匹配0或多个表达式 |
+ | 匹配1个或多个表达式 |
? | 匹配0或1个前面的正则表达式定义片段,非贪婪方式 |
{n} | 精确匹配前n个表达式 |
{n,m} | 匹配由n到m前面表达式定义的片段 |
a|b | 匹配a或b |
( ) | 匹配括号内的表达式,也表示一个组 |
match()
向match()传入要匹配的字符串及正则表达式,就可以检测到这个正则表达式是否匹配字符串
match()会尝试从字符串的起始位置进行匹配正则表达式,匹配成功则返回匹配结果,否则返回None
# 实例
import re
content = 'Hello 123 4567 World_This iss a Regex Demo'
print(len(content))
# match第一个传入的是正则表达式,第二个传入的是待匹配的字符串
# 后面还可以传入两个参数进行指定开始匹配和结束匹配,即指定匹配的范围
result = re.match('Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(result)
# group()输出匹配到的内容
print(result.group())
# span()输出匹配的范围
print(result.span())
# 运行结果
41
<re.Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)
匹配目标
可以用()来提取匹配的子字符串,()标记了每个子表达式的开始和结束位置
每个子表达式都会对应一个分组
可以利用group()的方法传入索引值提取结果
# 实例
import re
content = 'Hello 1234567 World_This is Regex Demo'
result = re.match('Hello\s(\d+)\sWorld',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())
# 运行结果
<re.Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)
通用匹配
’ . ’ 可以匹配任意字符(除换行符)
’ * ’ 代表匹配前面字符无限次
’ .* ’ 代表可以匹配任意字符
贪婪与非贪婪
# 先看一个例子
import re
content = 'Hello 1234567 World_This is Regex Demo'
result = re.match('He.*(\d+).*Demo$',content)
print(result)
print(result.group(1))
# 运行结果
<re.Match object; span=(0, 38), match='Hello 1234567 World_This is Regex Demo'>
7
满足(\d+)只有7,因为在贪婪匹配下,.* 会匹配尽可能多的字符串
因为(\d+)在.*后面,所以它至少有一个数字
.匹配尽可能多的字符串,所以将’123456’匹配进去,剩下一个7给(\d+)
因此我们可以使用非贪婪匹配,写法是 .?
非贪婪匹配会匹配尽可能少的字符串
import re
content = 'Hello 1234567 World_This is Regex Demo'
result = re.match('He.*?(\d+).*?Demo$',content)
print(result)
print(result.group(1))
# 运行结果
<re.Match object; span=(0, 38), match='Hello 1234567 World_This is Regex Demo'>
1234567
修饰符
import re
# 当字符串中出现换行时,就不能直接使用.*?等进行直接匹配
# 需要添加修饰符re.S
# 修饰符作用是使 . 匹配包括换行符在内的所有字符
content = '''Hello 1234567 World_This
is Regex Demo'''
result = re.match('He.*?(\d+).*?Demo$',content,re.S)
print(result.group(1))
# 运行结果
1234567
修饰符 | 描述 |
---|---|
re.I | 匹配对大小写不敏感 |
re.L | 做本地化识别匹配 |
re.M | 多行匹配,影响^和¥ |
re.S | 使 . 匹配包括换行符在内的所有字符 |
re.U | 根据Unicode字符集解析字符,影响\w,\W,\b,\B |
re.X | 通过给予更灵活的格式使正则表达式更加易于理解 |
转移匹配
若匹配在正则表达式中出现的字符,可以字符前加上反斜杠
如要匹配’ . ',那么可以使用. 进行匹配
search()
match()是从字符串开头进行匹配,如果开头不匹配则匹配失败
search()会扫描整个字符串,后返回第一个匹配成功的结果
如果整个字符串中不存在匹配的字符串,则返回None
# 实例
import re
# complie()用于编译正则表达式,返回一个pattern对象
pattern = re.compile('\d+')
# search后面可以传入两个参数,指定匹配范围
m = pattern.search('one12twothree34four')
print(m)
print(m.group())
print(m.span())
# 运行结果
<re.Match object; span=(3, 5), match='12'>
12
(3, 5)
findall()
若要找到匹配正则表达式的所有内容可以使用findall()
# 实例
import re
pattern = re.compile('\d+')
result1 = pattern.findall('hello 123 456')
result2 = pattern.findall('one12twothree34four',0,10)
print(result1)
print(result2)
# 运行结果
['123', '456']
['12']
# 返回结果是一个列表
# 如果没有匹配则返回一个空列表
sub()
如果需要修改文本,则需要用到sub()
# 实例
import re
p = re.compile('\d+')
content = '54aK54yr5oiR54ix5L2g'
result = p.sub('',content)
print(result)
# 运行结果
aKyroiRixLg
compile()
compile()可以将正则表达式字符串编译成正则表达式对象