Python 爬虫重点知识--正则表达式RE模块使用

Regular Expression, 正则表达式, 一种使用表达式的方式对字符串进行匹配的语法规则. 

我们抓取到的网页源代码本质上就是一个超长的字符串, 想从里面提取内容.用正则再合适不过了. 

正则的语法: 使用元字符进行排列组合用来匹配字符串  在线测试正则表达式https://tool.oschina.net/regex/

元字符: 具有固定含义的特殊符号 
常用元字符:


 .     √匹配除换行符以外的任意字符,  未来在python的re模块中是一个坑. 
 \w   匹配字母或数字或下划线.
 \s    匹配任意的空白符
 \d    √匹配数字
 \n    匹配一个换行符
 \t    匹配一个制表符
 
 ^     匹配字符串的开始
 $     匹配字符串的结尾
 
 \W    匹配非字母或数字或下划线
 \D    匹配非数字
 \S    匹配非空白符
 a|b   匹配字符a或字符b
 ()    √匹配括号内的表达式,也表示一个组
 [...]    √匹配字符组中的字符
 [^...]    匹配除了字符组中字符的所有字符
```

量词: 控制前面的元字符出现的次数

```
 *    重复零次或更多次
 +    重复一次或更多次
 ?    重复零次或一次
 {n}    重复n次 
 {n,}    重复n次或更多次 
 {n,m}    重复n到m次
```

贪婪匹配和惰性匹配(重点)

```
 .*     贪婪匹配,  尽可能多的去匹配结果
 .*?    惰性匹配,  尽可能少的去匹配结果 -> 回溯
```

这两个要着重的说一下. 因为我们写爬虫用的最多的就是这个惰性匹配. 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值