Python 爬虫（5）Beautiful Soup 4 实战

原创

已于 2025-04-08 23:47:13 修改 · 1.1k 阅读

17 ·

CC 4.0 BY-SA版权

文章标签：

#python #爬虫 #开发语言

于 2025-03-30 22:38:45 首次发布

文章目录

一、Beautiful Soup实战

前言：

在网络数据处理与分析的领域里，网页数据提取是极为关键的一环。Python 作为一种功能强大且广受欢迎的编程语言，为开发者们提供了众多实用的库来处理这类任务，其中 BeautifulSoup 便是一款在网页数据提取方面表现卓越的库。

一、Beautiful Soup实战

1、什么是 Beautiful Soup ?

BeautifulSoup 是一个用于从 HTML 或 XML 文件中提取数据的 Python 库。它可以将复杂的 HTML 或 XML 文档转化为树形结构，使得开发者能够轻松地遍历、搜索和修改文档内容。借助 BeautifulSoup，我们能够迅速定位到所需的数据，如特定的标签、属性或文本信息。主要特点：

自动将输入文档转换为Unicode编码，输出文档转换为UTF-8编码。
支持多种解析器（如lxml、html5lib等）。
提供简单易用的导航、搜索和修改文档树的方法。
能够处理不规范的HTML文档。

2、安装

执行下面的命令进行安装

pip install beautifulsoup4

3、解析器

Beautiful Soup 支持多种解析器，每种解析器有不同的特点和适用场景。以下是主要的解析器及其差异对比。

解析器	安装方式	速度	容错性	依赖	适用场景
Python标准库 `html.parser`	内置，无需安装	中等	中等	无	简单项目，不需要额外依赖
lxml的HTML解析器 `lxml`	`pip install lxml`	快	好	lxml库	大多数情况下的首选
lxml的XML解析器 `xml`	`pip install lxml`	快	严格	lxml库	解析严格的XML文档
html5lib `html5lib`	`pip install html5lib`	慢	非常好	html5lib库	解析不规范HTML，模拟浏览器行为

4、创建 Beautiful Soup 对象

创建 Beautiful Soup 对象时大多数情况下只需要关注markup和features参数，其他参数用于处理特殊情况。

markup 参数（必需）
- 作用：指定要解析的文档内容
- 可接受类型：
  - 字符串形式的HTML/XML内容
  - 文件对象（如通过open()打开的文件）
  - URL响应内容（如requests库获取的响应）
- 示例：
```
# 从字符串创建
html_str = "<html><body><p>Hello World</p><
```