探索如何通过标题切分Markdown文件以提高文本处理效率

最新推荐文章于 2025-11-26 15:40:52 发布

原创最新推荐文章于 2025-11-26 15:40:52 发布 · 509 阅读

CC 4.0 BY-SA版权

文章标签：

# 引言

在文本处理领域，尤其是构建聊天机器人或问答应用时，我们常常需要将输入文档切分成更小的块，以便进行嵌入和向量存储。Markdown文件通常通过标题来组织内容，合理地利用Markdown的结构进行切分是一个有效的策略。这篇文章将探讨如何使用`MarkdownHeaderTextSplitter`来根据指定的标题级别切分Markdown文件，以增强文本块的语义一致性。

# 主要内容

## 为什么要根据标题进行Markdown切分？

在许多情况下，嵌入整个段落或文档可以更完整地捕捉文本的整体语境和句子间的关系。然而，当处理长文档时，将其逻辑地分割为较小的单元可以保留语义连贯性，并使处理过程更加高效。

## 如何使用MarkdownHeaderTextSplitter

`MarkdownHeaderTextSplitter`是一个强大的工具，可以根据指定的标题级别来切分Markdown。以下是如何使用它的基本步骤：

### 安装所需的库

首先确保安装了必要的库：

```bash
%pip install -qU langchain-text-splitters

使用MarkdownHeaderTextSplitter进行切分

导入并使用MarkdownHeaderTextSplitter可以帮助我们实现按标题切分：

from langchain_text_splitters import MarkdownHeaderTextSplitter

markdown_document = "# Foo\n\n## Bar\n\nHi this is Jim\n\nHi this is Joe\n\n### Boo \n\nHi this is Lance\n\n## Baz\n\nHi this is Molly"

headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on)
md_header_splits = markdown_splitter.split_text(markdown_document)
print(md_header_splits)

保留或去除标题

默认情况下，MarkdownHeaderTextSplitter会从输出的文本块中去掉标题。可以通过设置strip_headers=False来保留标题：

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on, strip_headers=False)
md_header_splits = markdown_splitter.split_text(markdown_document)
print(md_header_splits)

调整块的大小

可以在每个Markdown组内使用其他文本切分器，如RecursiveCharacterTextSplitter，以进一步控制块的大小：

from langchain_text_splitters import RecursiveCharacterTextSplitter

chunk_size = 250
chunk_overlap = 30
text_splitter = RecursiveCharacterTextSplitter(chunk_size=chunk_size, chunk_overlap=chunk_overlap)

splits = text_splitter.split_documents(md_header_splits)
print(splits)