python3爬虫系列04之网页解析器:re正则式,BeautifulSoup库的解释
1.前言——网页解析器的种类
经过前面几篇文章:
01之爬虫架构
02之网页下载器urllib库
03之网页下载器requests库
现在,我已经会使用 python 模拟浏览器进行一些 Https 的抓包,发请求了,那么根据我们第一篇所说的结构: 网页下载器() -> 网页解析器() 的流程,接下来该说网页解析器了。
在网页解析器中,我们一般有这四个:
-
正则表达式(re模糊匹配)
-
html.parser (Python自带)
-
BeautifulSoup (第三方插件)
-
lxml (第三方解析器)