langchain.text_splitter：用RecursiveCharacterTextSplitter而不是CharacterTextSplitter，解决chunk过长的问题

最新推荐文章于 2025-10-21 06:53:36 发布

原创最新推荐文章于 2025-10-21 06:53:36 发布 · 906 阅读

8 ·

CC 4.0 BY-SA版权

文章标签：

#langchain

人工智能学习笔记专栏收录该内容

277 篇文章

订阅专栏

诸神缄默不语-个人技术博文与视频目录

这是我在想尝试实践RAG功能的时候出现的问题。
我一开始用的代码类似这样：

from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    chunk_size=500,
    chunk_overlap=50,
)

但是在使用chunks = text_splitter.split_documents(documents=documents)之后会出现类似这样的警告信息：

Created a chunk of size 593, which is longer than the specified 500

那我肯定会很好奇，为什么chunk的长度会超过我规定的数值呢？
在看源码的时候我们很容易发现CharacterTextSplitter有一个入参是separator: str = "\n\n"，很容易发现这个入参就是用来切分文档的分隔符。在分隔符之间的文本无论多长都不会被切开。
但是我们有时其实希望它通过多个分隔符来分割文本，大致逻辑是在这些分隔符之间也能分割文本，这个分隔符还有优先级，就是如果能用"\n\n"分的话就先不用。分。这个功能如果要手写的话可以参考苏神的代码，我整理在了这篇博文中，见第一节：中文分句的解决方案
如果要在langchain中直接实现现成的TextSplitter对象，则可以用RecursiveCharacterTextSplitter类来实现，代码类似这样：

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    separators=["\n\n", "\n", "。", "."],
    chunk_size=500,
    chunk_overlap=50,
)