深入理解 LangChain 文档分割技术

最新推荐文章于 2025-04-16 10:47:22 发布

AI大模型..

最新推荐文章于 2025-04-16 10:47:22 发布

阅读量1.2k

点赞数 9

文章标签： langchain 数据库人工智能知识图谱 llama 机器学习程序员

本文链接：https://blog.youkuaiyun.com/Wufjsjjx/article/details/144194105

版权

引言

在 RAG（检索增强生成）应用中，文档分割是一个至关重要的步骤。合适的分割策略可以显著提高检索的准确性和生成内容的质量。本文将深入探讨 LangChain 中的各种文档分割技术，比较它们的优缺点，并分析适用场景。

LangChain 中的文档分割器概览

LangChain 提供了多种文档分割器，主要包括：

字符分割器（CharacterTextSplitter）
递归字符文本分割器（RecursiveCharacterTextSplitter）
语义文档分割器（SemanticChunker）
其他专用分割器（如 MarkdownHeaderTextSplitter）

接下来，我们将详细介绍这些分割器的使用方法和特点。

字符分割器（CharacterTextSplitter）

字符分割器是最基本的分割方法，它按照指定的字符数来分割文本。

使用示例

from langchain.text_splitter import CharacterTextSplitter

text_splitter = CharacterTextSplitter(
    separator="\n\n",
    chunk_size=1000,
    chunk_overlap=200,
    length_function=len,
)

text = "Your long text here..."
docs = text_splitter.create_documents([text])

特点

简单直接，易于理解和实现
可能会打断语义完整性
适用于结构简单、语义不太复杂的文本

递归字符文本分割器（RecursiveCharacterTextSplitter）

递归字符文本分割器是一种更智能的分割方法，它尝试在特定分隔符处分割文本，以保持更好的语义完整性。

使用示例

from langchain.text_splitter import RecursiveCharacterTextSplitter

text_splitter = RecursiveCharacterTextSplitter(
    chunk_size=100,
    chunk_overlap=20,
    length_function=len,
    separators=["\n\n", "\n", " ", ""]
)

text = "Your long text here..."
docs = text_splitter.split_text(text)

特点

尝试在自然断点处分割文本
比简单的字符分割更能保持语义完整性
适用于结构化程度较高的文本，如 Markdown、HTML 等

运行流程

首先尝试使用第一个分隔符（如 “\n\n”）分割文本
如果分割后的块仍然过大，则使用下一个分隔符继续分割
重复此过程，直到达到指定的 chunk_size 或用完所有分隔符

语义文档分割器（SemanticChunker）

语义文档分割器使用语义理解来分割文本，这是一种更高级的分割方法。

使用示例

from langchain.text_splitter import SemanticChunker
from langchain.embeddings import OpenAIEmbeddings

text_splitter = SemanticChunker(
    embeddings=OpenAIEmbeddings()
)

text = "Your long text here..."
docs = text_splitter.split_text(text)

特点

基于语义相似性分割文本
能够更好地保持语义完整性
计算成本较高，处理大量文本时可能效率较低
适用于需要高度语义理解的场景

其他专用分割器

LangChain 还提供了一些针对特定格式的分割器，如 MarkdownHeaderTextSplitter。这些分割器能够识别特定格式的结构，从而实现更精确的分割。

MarkdownHeaderTextSplitter 示例

from langchain.text_splitter import MarkdownHeaderTextSplitter

headers_to_split_on = [
    ("#", "Header 1"),
    ("##", "Header 2"),
    ("###", "Header 3"),
]

markdown_splitter = MarkdownHeaderTextSplitter(headers_to_split_on=headers_to_split_on)

markdown_text = "# Header 1\nSome text\n## Header 2\nMore text\n### Header 3\nEven more text"
docs = markdown_splitter.split_text(markdown_text)

分割策略的选择与优化

选择合适的分割策略对 RAG 应用的性能至关重要。以下是一些选择和优化建议：

文档类型考虑：
- 对于结构化文档（如 Markdown、HTML），使用 RecursiveCharacterTextSplitter 或专用分割器
- 对于非结构化文本，可以使用 CharacterTextSplitter 或 SemanticChunker
性能与准确性平衡：
- SemanticChunker 提供最好的语义完整性，但计算成本高
- CharacterTextSplitter 速度最快，但可能影响语义完整性
- RecursiveCharacterTextSplitter 是一个很好的折中方案
chunk_size 和 chunk_overlap 的调整：
- chunk_size 过大可能导致检索不精确，过小可能丢失上下文
- chunk_overlap 有助于保持上下文连贯性，但会增加存储和处理成本
自定义分割逻辑：
- 对于特定领域的文档，可能需要开发自定义分割器
- 考虑使用正则表达式或特定领域的规则来优化分割

结语

文档分割是 RAG 应用中的关键环节，直接影响检索和生成的质量。通过深入理解 LangChain 提供的各种分割技术，并根据具体应用场景选择合适的策略，我们可以显著提升 RAG 系统的整体性能。在实际应用中，建议进行充分的测试和对比，找到最适合您特定需求的分割方法。

如何系统的去学习大模型LLM ？

大模型时代，火爆出圈的LLM大模型让程序员们开始重新评估自己的本领。 “AI会取代那些行业？”“谁的饭碗又将不保了？”等问题热议不断。

事实上，抢你饭碗的不是AI，而是会利用AI的人。

继科大讯飞、阿里、华为等巨头公司发布AI产品后，很多中小企业也陆续进场！超高年薪，挖掘AI大模型人才！ 如今大厂老板们，也更倾向于会AI的人，普通程序员，还有应对的机会吗？

与其焦虑……

不如成为「掌握AI工具的技术人」，毕竟AI时代，谁先尝试，谁就能占得先机！

但是LLM相关的内容很多，现在网上的老课程老教材关于LLM又太少。所以现在小白入门就只能靠自学，学习成本和门槛很高。

针对所有自学遇到困难的同学们，我帮大家系统梳理大模型学习脉络，将这份 LLM大模型资料 分享出来：包括LLM大模型书籍、640套大模型行业报告、LLM大模型学习视频、LLM大模型学习路线、开源大模型学习教程等, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉优快云大礼包🎁：全网最全《LLM大模型入门+进阶学习资源包》免费分享（安全链接，放心点击）👈

一、LLM大模型经典书籍

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套LLM大模型报告合集

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)

在这里插入图片描述

三、LLM大模型系列视频教程

在这里插入图片描述

四、LLM大模型开源教程（LLaLA/Meta/chatglm/chatgpt）

在这里插入图片描述

LLM大模型学习路线 ↓

阶段1：AI大模型时代的基础理解

目标：了解AI大模型的基本概念、发展历程和核心原理。
内容：
- L1.1 人工智能简述与大模型起源
- L1.2 大模型与通用人工智能
- L1.3 GPT模型的发展历程
- L1.4 模型工程
- L1.4.1 知识大模型
- L1.4.2 生产大模型
- L1.4.3 模型工程方法论
- L1.4.4 模型工程实践
- L1.5 GPT应用案例

阶段2：AI大模型API应用开发工程

目标：掌握AI大模型API的使用和开发，以及相关的编程技能。
内容：
- L2.1 API接口
- L2.1.1 OpenAI API接口
- L2.1.2 Python接口接入
- L2.1.3 BOT工具类框架
- L2.1.4 代码示例
- L2.2 Prompt框架
- L2.3 流水线工程
- L2.4 总结与展望