网络爬虫之基础库的使用(三)

网络爬虫之基础库的使用(三)

正则表达式

正则表达式是处理字符串的工具,它有特定的语法结构,可以实现字符串检索,替换,匹配验证等

常用匹配规则
模式描述
\w匹配字母,数字和下划线
\W与\w相反,即不匹配
\s匹配空白字符,等价于[\t\n\r\f]
\S匹配非空白字符
\d匹配任意数字,即[0-9]
\D匹配非数字字符
\A匹配字符串开头
\Z匹配字符串结尾,如存在换行,则匹配到换行前结束的字符
\z匹配字符串结尾,如果存在换行,会匹配换行符
\G匹配最后匹配完成的位置
\n匹配一个换行符
\t匹配一个制表符
^匹配一行字符串开头
$匹配一行字符串结尾
.匹配任意字符,除换行符
[…]匹配一组字符,单独列出,如匹配wan,[wan]
[^…]匹配不在[ ]中的字符
*匹配0或多个表达式
+匹配1个或多个表达式
?匹配0或1个前面的正则表达式定义片段,非贪婪方式
{n}精确匹配前n个表达式
{n,m}匹配由n到m前面表达式定义的片段
a|b匹配a或b
( )匹配括号内的表达式,也表示一个组
match()

向match()传入要匹配的字符串及正则表达式,就可以检测到这个正则表达式是否匹配字符串
match()会尝试从字符串的起始位置进行匹配正则表达式,匹配成功则返回匹配结果,否则返回None

# 实例
import re

content = 'Hello 123 4567 World_This iss a Regex Demo'
print(len(content))
# match第一个传入的是正则表达式,第二个传入的是待匹配的字符串
# 后面还可以传入两个参数进行指定开始匹配和结束匹配,即指定匹配的范围
result = re.match('Hello\s\d\d\d\s\d{4}\s\w{10}',content)
print(result)
# group()输出匹配到的内容
print(result.group())
# span()输出匹配的范围
print(result.span())

# 运行结果
41
<re.Match object; span=(0, 25), match='Hello 123 4567 World_This'>
Hello 123 4567 World_This
(0, 25)
匹配目标

可以用()来提取匹配的子字符串,()标记了每个子表达式的开始和结束位置
每个子表达式都会对应一个分组
可以利用group()的方法传入索引值提取结果

# 实例
import re

content = 'Hello 1234567 World_This is Regex Demo'
result = re.match('Hello\s(\d+)\sWorld',content)
print(result)
print(result.group())
print(result.group(1))
print(result.span())
# 运行结果
<re.Match object; span=(0, 19), match='Hello 1234567 World'>
Hello 1234567 World
1234567
(0, 19)
通用匹配

’ . ’ 可以匹配任意字符(除换行符)
’ * ’ 代表匹配前面字符无限次
’ .* ’ 代表可以匹配任意字符

贪婪与非贪婪
# 先看一个例子
import re
content = 'Hello 1234567 World_This is Regex Demo'
result = re.match('He.*(\d+).*Demo$',content)
print(result)
print(result.group(1))
# 运行结果
<re.Match object; span=(0, 38), match='Hello 1234567 World_This is Regex Demo'>
7

满足(\d+)只有7,因为在贪婪匹配下,.* 会匹配尽可能多的字符串
因为(\d+)在.*后面,所以它至少有一个数字
.匹配尽可能多的字符串,所以将’123456’匹配进去,剩下一个7给(\d+)
因此我们可以使用非贪婪匹配,写法是 .
?
非贪婪匹配会匹配尽可能少的字符串

import re

content = 'Hello 1234567 World_This is Regex Demo'
result = re.match('He.*?(\d+).*?Demo$',content)
print(result)
print(result.group(1))
# 运行结果
<re.Match object; span=(0, 38), match='Hello 1234567 World_This is Regex Demo'>
1234567
修饰符
import re

# 当字符串中出现换行时,就不能直接使用.*?等进行直接匹配
# 需要添加修饰符re.S
# 修饰符作用是使 . 匹配包括换行符在内的所有字符
content = '''Hello 1234567 World_This
is Regex Demo'''
result = re.match('He.*?(\d+).*?Demo$',content,re.S)
print(result.group(1))
# 运行结果
1234567
修饰符描述
re.I匹配对大小写不敏感
re.L做本地化识别匹配
re.M多行匹配,影响^和¥
re.S使 . 匹配包括换行符在内的所有字符
re.U根据Unicode字符集解析字符,影响\w,\W,\b,\B
re.X通过给予更灵活的格式使正则表达式更加易于理解
转移匹配

若匹配在正则表达式中出现的字符,可以字符前加上反斜杠
如要匹配’ . ',那么可以使用. 进行匹配

search()

match()是从字符串开头进行匹配,如果开头不匹配则匹配失败
search()会扫描整个字符串,后返回第一个匹配成功的结果
如果整个字符串中不存在匹配的字符串,则返回None

# 实例
import re

# complie()用于编译正则表达式,返回一个pattern对象
pattern = re.compile('\d+')
# search后面可以传入两个参数,指定匹配范围
m = pattern.search('one12twothree34four')
print(m)
print(m.group())
print(m.span())
# 运行结果
<re.Match object; span=(3, 5), match='12'>
12
(3, 5)
findall()

若要找到匹配正则表达式的所有内容可以使用findall()

# 实例
import re

pattern = re.compile('\d+')
result1 = pattern.findall('hello 123 456')
result2 = pattern.findall('one12twothree34four',0,10)
print(result1)
print(result2)
# 运行结果
['123', '456']
['12']
# 返回结果是一个列表
# 如果没有匹配则返回一个空列表
sub()

如果需要修改文本,则需要用到sub()

# 实例
import re

p = re.compile('\d+')
content = '54aK54yr5oiR54ix5L2g'
result = p.sub('',content)
print(result)
# 运行结果
aKyroiRixLg
compile()

compile()可以将正则表达式字符串编译成正则表达式对象

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值