BeautifulSoup四大对象种类与常用解析器

原创已于 2023-10-26 20:52:17 修改 · 2.4k 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#beautifulsoup #前端 #javascript

于 2023-10-22 09:29:02 首次发布

本文介绍了BeautifulSoup库中的四种主要对象类型（Tag、NavigableString、BeautifulSoup对象和Comment），以及三种常用的解析器（html.parser、lxml和html5lib）。详细讲解了如何在实际操作中运用这些对象和解析器进行HTML/XML文件的解析和处理。

部署运行你感兴趣的模型镜像

一.四大对象种类

1.Tag（标签）

2.NavigableString（可导航字符串）

一.四大对象种类

BeautifulSoup 是一个用于解析 HTML 和 XML 文件的 Python 库，它提供了四种主要的对象类型：

1.Tag（标签）

Tag 对象表示 HTML 或 XML 中的标签，例如<div>、<p>、<a>等，Tag对象可以包含其他标签、文本内容和属性，是BeautifulSoup中最常用的对象类型。

2.NavigableString（可导航字符串）

NavigableString 对象表示 HTML 或 XML 中的文本内容。它是标签内部的文本部分，可以通过 Tag 对象的 .string 属性或 .get_text() 方法获取。NavigableString 对象具有字符串的特性，可以进行各种字符串操作。

3.BeautifulSoup

BeautifulSoup 对象是整个文档的表示。它由解析器解析 HTML 或 XML 文件得到，并提供了对整个文档的遍历、搜索和修改功能。BeautifulSoup 对象是使用 BeautifulSoup 构造函数创建的，通常将解析器的名称和要解析的文档作为参数传递给构造函数。

4.Comment（注释）

Comment 对象表示 HTML 或 XML 中的注释部分。它是一种特殊的 NavigableString 对象，可以通过 Tag 对象的 .string 属性或 .get_text() 方法获取。注释部分在解析文档时通常会被忽略，但在需要时可以提取和处理。

这些对象类型在 BeautifulSoup 中相互关联，共同构成了对 HTML 或 XML 文档的完整表示和操作方式。

例如以下为对这四种对象的解析：

from bs4 import BeautifulSoup

# 假设有一个名为 "example.html" 的 HTML 文件
with open("example.html") as file:
    soup = BeautifulSoup(file, "html.parser")  # 创建 BeautifulSoup 对象

# 使用 Tag 对象
first_div = soup.find("div")  # 查找第一个 <div> 标签
print(first_div.text)  # 输出 <div> 标签内的文本内容

# 使用 NavigableString 对象
first_p = soup.find("p")  # 查找第一个 <p> 标签
print(first_p.string)  # 输出 <p> 标签内的文本内容

# 使用 BeautifulSoup 对象
title = soup.title  # 获取文档的 <title> 标签
print(title.string)  # 输出 <title> 标签内的文本内容

# 使用 Comment 对象
comments = soup.find_all(text=lambda text: isinstance(text, Comment))  # 查找所有注释
for comment in comments:
    print(comment)  # 输出注释内容

二.常用解析器

在示例中使用了html.parser解析器，在BeautifulSoup有3中常用解析器类型：

1.html.parser

这是 Python 内置的解析器，不需要额外安装任何库。它通常是使用 BeautifulSoup 的默认解析器。但是它在处理某些复杂的 HTML 文档时可能表现不佳。

2.lxml

lxml 是一个高性能的解析库，要使用 lxml 解析器，需要先安装 lxml 库。可以使用 pip install lxml 命令进行安装。lxml 解析器通常比内置的 html.parser 解析器更快，而且能够处理一些复杂的 HTML 结构。

3.html5lib

html5lib 解析器是一个纯 Python 实现的解析器，它以与浏览器一致的方式解析 HTML。要使用 html5lib 解析器，需要先安装 html5lib 库。可以使用 pip install html5lib 命令进行安装。html5lib 解析器通常比内置的 html.parser 解析器慢，但它具有更好的容错性，可以处理包含错误或不完整的 HTML。

一般情况下，如果只是进行基本的 HTML 解析，内置的 html.parser 解析器已经足够。如果需要处理复杂的 HTML 结构或需要更好的性能，可以考虑使用 lxml 解析器。如果需要处理包含错误或不完整的 HTML，可以尝试使用 html5lib 解析器。

在使用 BeautifulSoup 时，可以通过在构造函数中指定features参数来选择所使用的解析器类型。例如：

# 使用 lxml 解析器
soup = BeautifulSoup(html_doc, "lxml")

# 使用 html5lib 解析器
soup = BeautifulSoup(html_doc, "html5lib")

您可能感兴趣的与本文相关的镜像

Python3.10

Conda

Python

Python 是一种高级、解释型、通用的编程语言，以其简洁易读的语法而闻名，适用于广泛的应用，包括Web开发、数据分析、人工智能和自动化脚本

BeautifulSoup四大对象种类与常用解析器

一.四大对象种类

1.Tag（标签）

2.NavigableString（可导航字符串）

3.BeautifulSoup

4.Comment（注释）

二.常用解析器

1.html.parser

2.lxml

3.html5lib

1 条评论