今天又来到了《爬虫 120 例》系列专栏上新的日子了,接下来的 3 篇文章将围绕 BeautifulSoup4
进行学习。
BeautifulSoup4 基础知识补充
BeautifulSoup4
是一款 python 解析库,主要用于解析 HTML 和 XML,在爬虫知识体系中解析 HTML 会比较多一些,该库安装命令如下:
pip install beautifulsoup4
BeautifulSoup
在解析数据时,需依赖第三方解析器,常用解析器与优势如下所示:
python 标准库 html.parser
:python 内置标准库,容错能力强;lxml 解析器
:速度快,容错能力强;html5lib
:容错性最强,解析方式与浏览器一致。
接下来用一段自定义的 HTML 代码来演示 beautifulsoup4
库的基本使用,测试代码如下:
<html