139 深入解析 RecursiveCharacterTextSplitter 类 langchain_text_splitters.charater.py

最新推荐文章于 2025-10-30 10:07:01 发布

原创

最新推荐文章于 2025-10-30 10:07:01 发布 · 5.2k 阅读

10 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #easyui #前端 #RAG #LLM

深入解析 RecursiveCharacterTextSplitter 类

在自然语言处理和文本处理任务中，文本分割是一个常见的需求。文本分割的目的是将长文本分割成更小的、更易于处理的片段。RecursiveCharacterTextSplitter 类是一个强大的工具，它通过递归地尝试不同的分隔符来分割文本。本文将深入探讨这个类的实现细节，并通过代码示例帮助你更好地理解其工作原理。

前置知识

在深入探讨 RecursiveCharacterTextSplitter 类之前，我们需要了解一些基本概念：

文本分割：将长文本分割成更小的片段，以便于处理和分析。
分隔符：用于分割文本的字符或字符串。
递归：一种编程技术，函数调用自身来解决问题。
正则表达式：一种用于匹配字符串的模式。

类定义

RecursiveCharacterTextSplitter 类继承自 TextSplitter 类，并提供了递归分割文本的功能。

class RecursiveCharacterTextSplitter(TextSplitter):
    """Splitting text by recursively look at characters.

    Recursively tries to split by different characters to find one
    that works.
    """

初始化方法

类的初始化方法 __init__ 接受几个参数：

separators：一个可选的分隔符列表，默认为 ["\n\n", "\n", " ", ""]。
keep_separator：一个布尔值或字符串，表示是否保留分隔符，默认为 True。
is_separator_regex：一个布尔值，表示分隔符是否为正则表达式，默认为 False。
**kwargs：其他关键字参数。

def __init__(
    self,
    separators: Optional[List[str]] = None,
    keep_separator: Union[bool, Literal["start", "end"]] = True,
    is_separator_regex: bool = False,
    **kwargs: Any,
) -> None:
    """Create a new TextSplitter."""
    super().__init__(keep_separator=keep_s