网络爬虫之基础库的使用（三）_爬虫 group span-优快云博客

本文链接：https://blog.youkuaiyun.com/weixin_45743477/article/details/105202927

网络爬虫之基础库的使用（三）

正则表达式

正则表达式是处理字符串的工具，它有特定的语法结构，可以实现字符串检索，替换，匹配验证等

常用匹配规则

模式	描述
\w	匹配字母，数字和下划线
\W	与\w相反，即不匹配
\s	匹配空白字符，等价于[\t\n\r\f]
\S	匹配非空白字符
\d	匹配任意数字，即[0-9]
\D	匹配非数字字符
\A	匹配字符串开头
\Z	匹配字符串结尾，如存在换行，则匹配到换行前结束的字符
\z	匹配字符串结尾，如果存在换行，会匹配换行符
\G	匹配最后匹配完成的位置
\n	匹配一个换行符
\t	匹配一个制表符
^	匹配一行字符串开头
$	匹配一行字符串结尾
.	匹配任意字符，除换行符
[…]	匹配一组字符，单独列出，如匹配wan，[wan]
[^…]	匹配不在[ ]中的字符
*	匹配0或多个表达式
+	匹配1个或多个表达式
?	匹配0或1个前面的正则表达式定义片段，非贪婪方式
{n}	精确匹配前n个表达式
{n,m}	匹配由n到m前面表达式定义的片段
a\|b	匹配a或b
( )	匹配括号内的表达式，也表示一个组

match()

向match()传入要匹配的字符串及正则表达式，就可以检测到这个正则表达式是否匹配字符串
match()会尝试从字符串的起始位置进行匹配正则表达式，匹配成功则返回匹配结果，否则返回None

# 实例
import re

content = 'Hello 123 4567 World_This iss a Regex Demo'
print(len(content))
# match第一个传入的是正则表达式，第二个传入的是待匹配的字符串
# 后面还可以传入两个参数进行指定开始匹配和结束匹配，即指定匹配的范围
result = re.match('Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(result)
# group()输出匹配到的内容
print(result.group())
# span()输出匹配的范围
print(result.span())

# 运行结果
41
<re.Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)

匹配目标

可以用()来提取匹配的子字符串，()标记了每个子表达式的开始和结束位置
每个子表达式都会对应一个分组
可以利用group()的方法传入索引值提取结果

# 实例
import re

content = 'Hello 1234567 World_This is Regex Demo'
result = re.match('Hello\s(\d+)\sWorld',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())
# 运行结果
<re.Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)

通用匹配

’ . ’ 可以匹配任意字符(除换行符)
’ * ’ 代表匹配前面字符无限次
’ .* ’ 代表可以匹配任意字符

贪婪与非贪婪

# 先看一个例子
import re
content = 'Hello 1234567 World_This is Regex Demo'
result = re.match('He.*(\d+).*Demo$',content)
print(result)
print(result.group(1))
# 运行结果
<re.Match object; span=(0, 38), match='Hello 1234567 World_This is Regex Demo'>
7

满足(\d+)只有7，因为在贪婪匹配下，.* 会匹配尽可能多的字符串
因为(\d+)在.*后面，所以它至少有一个数字
.匹配尽可能多的字符串，所以将’123456’匹配进去，剩下一个7给(\d+)
因此我们可以使用非贪婪匹配，写法是 .?
非贪婪匹配会匹配尽可能少的字符串

import re

content = 'Hello 1234567 World_This is Regex Demo'
result = re.match('He.*?(\d+).*?Demo$',content)
print(result)
print(result.group(1))
# 运行结果
<re.Match object; span=(0, 38), match='Hello 1234567 World_This is Regex Demo'>
1234567

修饰符

import re

# 当字符串中出现换行时，就不能直接使用.*?等进行直接匹配
# 需要添加修饰符re.S
# 修饰符作用是使 . 匹配包括换行符在内的所有字符
content = '''Hello 1234567 World_This
is Regex Demo'''
result = re.match('He.*?(\d+).*?Demo$',content,re.S)
print(result.group(1))
# 运行结果
1234567

修饰符	描述
re.I	匹配对大小写不敏感
re.L	做本地化识别匹配
re.M	多行匹配，影响^和￥
re.S	使 . 匹配包括换行符在内的所有字符
re.U	根据Unicode字符集解析字符，影响\w,\W,\b,\B
re.X	通过给予更灵活的格式使正则表达式更加易于理解

转移匹配

若匹配在正则表达式中出现的字符，可以字符前加上反斜杠
如要匹配’ . '，那么可以使用. 进行匹配

search()

match()是从字符串开头进行匹配，如果开头不匹配则匹配失败
search()会扫描整个字符串，后返回第一个匹配成功的结果
如果整个字符串中不存在匹配的字符串，则返回None

# 实例
import re

# complie()用于编译正则表达式，返回一个pattern对象
pattern = re.compile('\d+')
# search后面可以传入两个参数，指定匹配范围
m = pattern.search('one12twothree34four')
print(m)
print(m.group())
print(m.span())
# 运行结果
<re.Match object; span=(3, 5), match='12'>
12
(3, 5)

findall()

若要找到匹配正则表达式的所有内容可以使用findall()

# 实例
import re

pattern = re.compile('\d+')
result1 = pattern.findall('hello 123 456')
result2 = pattern.findall('one12twothree34four',0,10)
print(result1)
print(result2)
# 运行结果
['123', '456']
['12']
# 返回结果是一个列表
# 如果没有匹配则返回一个空列表

sub()

如果需要修改文本，则需要用到sub()

# 实例
import re

p = re.compile('\d+')
content = '54aK54yr5oiR54ix5L2g'
result = p.sub('',content)
print(result)
# 运行结果
aKyroiRixLg

compile()

compile()可以将正则表达式字符串编译成正则表达式对象