深入理解HTMLSectionSplitter及其实用应用

最新推荐文章于 2025-11-26 15:59:01 发布

原创最新推荐文章于 2025-11-26 15:59:01 发布 · 323 阅读

CC 4.0 BY-SA版权

文章标签：

在处理复杂的HTML文档时，我们经常需要对文档进行结构化拆分，以便更好地分析和处理。HTMLSectionSplitter 是一个结构感知的chunker，可以在元素级别拆分文本，并为每个"相关"的块添加元数据。本文将深入探讨如何使用HTMLSectionSplitter，并通过实例代码展示其强大功能。

技术背景介绍

我们的问题是处理复杂的HTML文档，例如从网页抓取的内容，这些内容往往混杂不清。通过提取和分析这些内容，我们需要一种方法，既能保持相关文本的语义分组，又能保留文档结构中编码的信息。HTMLSectionSplitter 应运而生，专门用来解决这些问题。

核心原理解析

HTMLSectionSplitter 通过识别指定的HTML标签，如<h1>、<h2>等，将内容分成不同的块。每个块会带有相应的元数据，标识其所属的标题，这样在进行后续分析时，可以更好地理解每个文本块的上下文。

代码实现演示

下面的代码展示了如何使用HTMLSectionSplitter来处理HTML字符串，按指定的标题标签进行拆分，并获取相应的数据块。

from langchain_text_splitters import HTMLSectionSplitter

html_string = """
    <!DOCTYPE html>
    <html>
    <body>
        <div>
            <h1>Foo</h1>
            <p>Some intro text about Foo.</p>
            <div>
                <h2>Bar main section</h2>
                <p>Some intro text about Bar.</p>
                <h3>Bar subsection 1</h3>
                <p>Some text about the first subtopic of Bar.</p>
                <h3>Bar subsection 2</h3>
                <p>Some text about the second subtopic of Bar.</p>
            </div>
            <div>
                <h2>Baz</h2>
                <p>Some text about Baz</p>
            </div>
            <br>
            <p>Some concluding text about Foo</p>
        </div>
    </body>
    </html>
"""

headers_to_split_on = [("h1", "Header 1"), ("h2", "Header 2")]

html_splitter = HTMLSectionSplitter(headers_to_split_on)
html_header_splits = html_splitter.split_text(html_string)

# 输出分块结果
for document in html_header_splits:
    print(document.page_content, document.metadata)