[快速掌握HTML加载：使用Unstructured和BeautifulSoup4解析网页内容]

最新推荐文章于 2025-10-21 16:23:44 发布

原创最新推荐文章于 2025-10-21 16:23:44 发布 · 1k 阅读

14 ·

CC 4.0 BY-SA版权

文章标签：

#html #chrome #前端 #python

部署运行你感兴趣的模型镜像

引言

随着网络技术的发展，解析和加载HTML内容成为了许多开发者的需求。无论是为了数据采集、网页信息分析还是其他目的，能够高效地处理HTML文档是一项必备技能。在这篇文章中，我们将介绍如何使用Unstructured和BeautifulSoup4这两个Python库来加载和解析HTML文档，并将其转换为LangChain的Document对象。

主要内容

使用Unstructured加载HTML

Unstructured是一个强大的工具，用于处理和解析HTML文档。以下是使用Unstructured加载HTML文件的步骤：

安装Unstructured库：在你的Python环境中，使用以下命令安装库：
```
%pip install unstructured
```

加载HTML文档：使用UnstructuredHTMLLoader类从文件中加载HTML内容。

from langchain_community.document_loaders import UnstructuredHTMLLoader

file_path = "../../docs/integrations/document_loaders/example_data/fake-content.html"

loader = UnstructuredHTMLLoader(file_path)
data = loader.load()

print(data)

输出示例：

[Document(page_content='My First Heading\n\nMy first paragraph.', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html'})]

使用BeautifulSoup4加载HTML

BeautifulSoup4是另一个常用的HTML解析库，能够提取HTML文档中的文本和其他信息。

安装BeautifulSoup4：使用以下命令在你的环境中安装BeautifulSoup4：
```
%pip install bs4
```

解析HTML文档：利用BSHTMLLoader类来加载HTML文件。

from langchain_community.document_loaders import BSHTMLLoader

loader = BSHTMLLoader(file_path)
data = loader.load()

print(data)

输出示例：

[Document(page_content='\nTest Title\n\n\nMy First Heading\nMy first paragraph.\n\n\n', metadata={'source': '../../docs/integrations/document_loaders/example_data/fake-content.html', 'title': 'Test Title'})]

代码示例

以下是如何使用上述代码段将HTML内容加载为LangChain的Document对象的完整示例：

# 安装库
!pip install unstructured bs4

from langchain_community.document_loaders import UnstructuredHTMLLoader, BSHTMLLoader

file_path = "/path/to/your/document.html" # 修改为本地HTML文件的路径

# 使用Unstructured加载
loader_unstructured = UnstructuredHTMLLoader(file_path)
data_unstructured = loader_unstructured.load()
print("Unstructured Output:", data_unstructured)

# 使用BeautifulSoup4加载
loader_bs4 = BSHTMLLoader(file_path)
data_bs4 = loader_bs4.load()
print("BeautifulSoup4 Output:", data_bs4)