Python 爬虫重点知识--正则表达式RE模块使用

市民刘生

于 2022-06-14 16:14:28 发布

阅读量101

点赞数

文章标签：正则表达式爬虫 android 算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/qq_30127557/article/details/125278230

版权

Regular Expression, 正则表达式, 一种使用表达式的方式对字符串进行匹配的语法规则.

我们抓取到的网页源代码本质上就是一个超长的字符串, 想从里面提取内容.用正则再合适不过了.

正则的语法: 使用元字符进行排列组合用来匹配字符串在线测试正则表达式https://tool.oschina.net/regex/

元字符: 具有固定含义的特殊符号
常用元字符:

. √匹配除换行符以外的任意字符, 未来在python的re模块中是一个坑.
\w 匹配字母或数字或下划线.
\s 匹配任意的空白符
\d √匹配数字
\n 匹配一个换行符
\t 匹配一个制表符

^ 匹配字符串的开始
$ 匹配字符串的结尾

\W 匹配非字母或数字或下划线
\D 匹配非数字
\S 匹配非空白符
a|b 匹配字符a或字符b
() √匹配括号内的表达式，也表示一个组
[...] √匹配字符组中的字符
[^...] 匹配除了字符组中字符的所有字符
```

量词: 控制前面的元字符出现的次数

```
* 重复零次或更多次
+ 重复一次或更多次
? 重复零次或一次
{n} 重复n次
{n,} 重复n次或更多次
{n,m} 重复n到m次
```

贪婪匹配和惰性匹配(重点)

```
.* 贪婪匹配, 尽可能多的去匹配结果
.*? 惰性匹配, 尽可能少的去匹配结果 -> 回溯
```

这两个要着重的说一下. 因为我们写爬虫用的最多的就是这个惰性匹配.

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。