巧用Python解析HTML文件：从Unstructured到BeautifulSoup4

最新推荐文章于 2025-06-22 23:16:29 发布

原创最新推荐文章于 2025-06-22 23:16:29 发布 · 527 阅读

CC 4.0 BY-SA版权

文章标签：

# 巧用Python解析HTML文件：从Unstructured到BeautifulSoup4

在当今的数据驱动世界中，HTML解析变得愈加重要。无论是提取网页数据还是分析文档内容，选择合适的工具能够大幅提高工作效率。在这篇文章中，我们将探讨如何使用`Unstructured`和`BeautifulSoup4`来解析HTML文件，并将其加载到`LangChain Document`对象中，供下游使用。

## 引言

HTML（超文本标记语言）是用于构建网页的标准标记语言。为了从HTML文档中提取数据，我们需要使用合适的解析工具。本文将介绍如何使用`Unstructured`和`BeautifulSoup4`解析HTML，并加载为LangChain的文档对象。

## 解析工具介绍

### 使用Unstructured解析HTML

`Unstructured`是一个强大的Python库，专门用于解析非结构化数据。我们将展示如何使用它来解析HTML文件。

```python
# 安装Unstructured
%pip install unstructured

from langchain_community.document_loaders import UnstructuredHTMLLoader

# 设置文件路径
file_path = "../../docs/integrations/document_loaders/example_data/fake-content.html"

# 创建加载器并加载数据
loader = UnstructuredHTMLLoader(file_path)
data = loader.load()

# 输出解析后的数据
print(data)

结果

[Document(page_content='My First Heading\n\nMy first paragraph.', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html'})]

通过这种方式，我们能够轻松提取HTML文档中的文本内容。

使用BeautifulSoup4解析HTML

BeautifulSoup4是另一个广泛使用的HTML解析库。它能将页面中的元素轻松提取为文本。

# 安装BeautifulSoup4
%pip install bs4

from langchain_community.document_loaders import BSHTMLLoader

# 创建加载器并加载数据
loader = BSHTMLLoader(file_path)
data = loader.load()

# 输出解析后的数据
print(data)

结果

[Document(page_content='\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html', 'title': 'Test Title'})]

在这里，除了文本内容之外，我们还提取到了页面标题。