【使用langchain对docx、pdf、txt文档进行自定义切分】

最新推荐文章于 2025-04-15 16:33:40 发布

小闪777

最新推荐文章于 2025-04-15 16:33:40 发布

阅读量4.1k

点赞数 24

分类专栏： python-AI 文章标签： langchain

本文链接：https://blog.youkuaiyun.com/xiaoshan_777/article/details/139241258

版权

文章目录

- 业务背景
- 技术细节

业务背景

在RAG方案中，由于使用langchain按字数的切分方案，导致文本的召回结果不是很理想，此模型为某证券公司的模型方案，知识库大多是规章制度、法律条例等等，所以个性化按照默认方案即字数切分、章节切分、条切分。

技术细节

使用langchain读取docx、pdf、txt文档

from langchain_community.document_loaders import PyPDFLoader, TextLoader, Docx2txtLoader

if file_name.endswith(".pdf"):
    loader = PyPDFLoader(file_path)
elif file_name.endswith(".txt"):
    loader = TextLoader(file_path)
elif file_name.endswith(".docx"):
    loader = Docx2txtLoader(file_path)
else:
    raise BizException("目前只支持pdf文件与txt、docx文件")

按照给定的条件切分，默认、章节、条，在切分过程中如果章节或者条所含的字数超过配置的extra_word_filter_size的字数则会将此章节或词条按默认的（500,100）切分，后面转化为Document是因为最终导入向量数据库必须是这个类型无需关注。

def load_pages_(loader, file_path, split_type, chunk_size, chunk_overlap):
    contents =

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

小闪777

关注关注

24
点赞
踩
13

收藏

觉得还不错? 一键收藏
1
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

6. LangChain4j 基于RAG实现一套企业智能客服系统

gorgor在码农

07-17

2337

LLM的知识仅限于它所训练的数据。如果你想让 LLM 了解特定领域的知识或专有数据，你可以使用 RAG。什么是RAG？简而言之，RAG(检索增强生成) 是从数据中查找和注入相关信息的方法再将其发送到 LLM 之前添加到提示符中。这样，LLM将获得相关信息，并能够使用这些信息进行回复，这应该会降低幻觉的可能性。再简单一点，就是用户输入问题时, 我们先从我们的知识库查看答案，再把用户输的问题和我们知识库的答案，一起发送给大模型，让大模型根据我们的答案回复用户问题。

langchain教程-5.DocumentLoader/多种文档加载器

the_3rd_bomb的博客

02-06

1066

该系列教程的代码: https://github.com/shar-pen/Langchain-MiniTutorial我主要参考 langchain 官方教程, 有选择性的记录了一下学习内容这是教程清单用于存储一段文本及其相关元数据的类。metadata是一个用于从加载Document的类。CSVLoaderJSONLoaderTextLoader可以观察到，这种方法作为一个 async_generator工作。它是一种特殊类型的异步迭代器，能够值，而不需要一次性将所有值存储在内存中。

1 条评论您还未登录，请先登录后发表或查看评论

【LangChain系列】第二篇：文档拆分简介及实践

2301_81888214的博客

06-05

1276

在上一篇博客中，我们学习了如何使用LangChain的文档加载器将文档加载为标准格式。加载文档后，下一步是将它们拆分为更小的块。

langchain框架-文档加载器详解

最新发布

wend的博客

04-15

838

本文基于 LangChain 0.3.21 版本源码，梳理中涵盖的各类文档加载器。读者可按需查找，快速确认所需加载的文档能否能借助 LangChain 进行便捷的处理。若上述表格中未涵盖您所需的文档加载器，您可借助 LangChain 的BlobLoader与，灵活创建自定义文档加载器。通过这种方式，无论是特殊格式文件、小众数据源，还是特定场景下的数据读取需求，均可得到满足。具体实现方法与详细示例，您可参考 LangChain 官方文档获取指导。

在LangChain中加载和处理PDF文档

weixin_44217158的博客

09-05

2188

PDF（Portable Document Format）是一种广泛使用的文件格式，最初由Adobe在1992年开发，用于以一种与应用程序软件、硬件和操作系统无关的方式呈现文档。此外，通过向量数据库检索器，我们可以轻松地在大量文档中定位相关的信息。一旦加载了PDF文件，我们就可以将各个页面的内容拼接起来，形成一个连续的文本流，以便进一步处理。接下来，我们将使用向量数据库来生成一个检索器，并通过设置相似度阈值来限制检索结果。为了能够高效地检索文档内容，我们可以将加载的文档嵌入到向量数据库中。

【RAG入门教程04】Langchian的文档切分

yanqianglifei的专栏

06-09

3056

在 Langchain 中，文档转换器是一种在将文档提供给其他 Langchain 组件之前对其进行处理的工具。通过清理、处理和转换文档，这些工具可确保 LLM 和其他 Langchain 组件以优化其性能的格式接收数据。上一章我们了解了文档加载器，加载完文档之后还需要对文档进行转换。

langchain实现对word文档按指定内容（标题）分割内容

LoginHaoYu的博客

05-28

963

1.安装需要的库 docx库用于读取word文档中的内容，withopen方法读取可能会因为格式问题报错，所以采取这种方法读取文档内容。2.参考langchain官方文档方法对指定内容进行分割内容。

LangChain教程 | langchain 文本拆分器 | Text Splitters全集

HRG520JN的博客

03-28

1万+

一旦加载了文档，您通常会想要转换它们以更好地适应您的应用程序。最简单的例子是，您可能希望将一个长文档分割成更小的块，以便适合模型的上下文窗口。LangChain有许多内置的文档转换器，可以轻松地拆分、组合、过滤和操作文档。当你想处理很长的文本时，有必要将文本分割成块。虽然这听起来很简单，但这里有很多潜在的复杂性。理想情况下，您希望将语义相关的文本片段放在一起。“语义相关”的含义可能取决于文本的类型。示例展示了几个方法来做到这一点。将文本分成语义上有意义的小块（通常是句子）。

《易车实战学习Langchain开发》-01-使用Langchain构建“易车”销售平台智能问答系统

静愚AGI

07-22

1637

项目名称：“易车”——汽车销售智问智答。项目介绍：“易车”作为一个大型的在线汽车销售问答系统，有业务流程和规范，同时也有员工的销售指导手册。新员工入职销售培训时，会分享相关的信息。但是，这些信息分散于内部网和其他部门目录各处，有时不便查询；有时因为文档过于冗长，员工无法第一时间找到想要的内容；有时公司销售政策已更新，但是员工手头的文档还是旧版内容。基于上述需求，我们将开发一套基于各种内部汽车销售知识的 “LLM-QA” 系统。

构建企业私有RAG系统全流程：从 PDF 到智能问答的落地实践

努力分享一些人工智能相关的知识干货！

04-01

858

- ✅ 企业文档 → 可搜索向量的标准处理链路 - ✅ 私有知识库的快速搭建方式（Chroma / FAISS） - ✅ RAG 问答系统从输入 → 召回 → 生成 → 输出的完整闭环 - ✅ 多轮问答 / 结构化返回 / 部署上线建议 📌 实战派不是看个 demo 就算结束，而是能“封起来，用得起，上得线”。

【LangChain学习】基于PDF文档构建问答知识库（三）实战整合 LangChain、OpenAI、FAISS等

08-09

1万+

实战整合 LangChain、OpenAI、FAISS等技术链，构建基于pdf的知识问答库，同时配合自定义提示PromptTemplate，优化问答效果

nodejs langchain 文件分割

m0_56381003的博客

10-18

271

nodejs langchain 文件分割。

LangChain核心模块 Retrieval——文本分割

weixin_43787408的博客

03-24

1850

是一个“结构感知”分块器，它在元素级别拆分文本，并为每个与任何给定块“相关”的标题添加元数据。这样做的效果是尝试将所有段落（然后是句子，然后是单词）尽可能长时间地放在一起，因为这些通常看起来是语义相关性最强的文本片段。“语义相关”的含义可能取决于文本的类型。在较高层次上，它会分成句子，然后分成 3 个句子为一组，然后合并嵌入空间中相似的句子。检索的关键部分时仅获取文档的相关部分，主要任务之一是将大文档分割为更小的块。最简单的例子是，将长文档分割成更小的块，以适合模型的上下文窗口。

使用LangChain框架加载与解析txt,markdown,pdf,jpg格式文档

qq_45257495的博客

01-03

9052

使用LangChain库进行文档加载，对于txt,md,pdf格式的文档，都可以用LangChain类加载，UnstructuredFileLoader（txt文件读取）、UnstructuredFileLoader（word文件读取）、MarkdownTextSplitter（markdown文件读取）、UnstructuredPDFLoader（PDF文件读取），对于jpg格式的文档，我这里提供了一种思路。

LangChain教程 - RAG - PDF解析

花千树的专栏

01-30

3222

基于库，提供智能的内容解析功能，能够自动将文档拆分为不同的部分，如段落、标题、表格等，并支持将结果输出为JSON格式。此外，它还集成了OCR功能。特点适用于格式复杂的PDF文档。能够按块解析长文档，提供结构化数据。支持JSON格式输出，方便进一步处理。结合OCR技术，能够处理包含图片的PDF。适用场景需要按内容块拆分的文档。需要提取不同层级信息（如标题、正文、表格）。需要结构化输出（如JSON格式）。LangChain提供了丰富的PDF解析工具，适用于不同场景的文档处理需求。

使用langchain与你自己的数据对话(一)：文档加载与切割

热门推荐

weixin_42608414的博客

07-20

1万+

今天我们学习了文本的加载与分割，Langchain提供了丰富的外部数据加载器，这些外部数据可以是结构化的，也可以是非结构化的，其中我们还介绍了从网页和youtube视频中加载文本的方法，这个挺有意思的，大家可以尝试一下，由于外部数据量可能比较大，如pdf, text文档等，因此当我们加载了外部数据以后，我们还需要对数据进行分割处理，我们介绍了几种文本分割的方法，其中有按字符分割的CharacterTextSplitter分割器，和递归分割的RecursiveCharacterTextSplitter分割器。

LangChain教程 - RAG - 文档转换与文本切分

花千树的专栏

02-24

1177

LangChain 的文档转换器主要用于将不同格式的文档转换为统一的文本格式，方便后续处理。例如，HTML、Markdown 或其他格式的文档可以通过相应的转换器转化为纯文本。在处理长文本时，通常需要将其拆分为更小的块，以适应模型的输入限制。LangChain 提供了多种文本拆分器，满足不同的拆分需求。通过本篇博客，我们详细介绍了 LangChain 框架中的文档转换器和文本拆分器，并通过一个实际的示例展示了如何使用将 HTML 内容转换为纯文本，并结合对文本进行拆分。

Langchain实现文件加载和分割

tonghaiyue的博客

07-17

688

从零开始学Langchain分割文本。PS：用3.8是因为想用飞浆的OCR，比较稳定，为啥.11呢，因为langchain大部分要求3.8.1以上，所以目前用这个，暂时没发现什么问题。pip install langchain-community（原因是我测试过程中发现有些包现在只在社区版能导入了，具体的记不清了）

使用LangChain4j构建本地RAG系统

python123456_的博客

08-10

2883

RAG（Retrieval-Augmented Generation）的核心思想是：将传统的信息检索（IR）技术与现代的生成式大模型（如chatGPT）结合起来。具体来说，RAG模型在生成答案之前，会首先从一个大型的文档库或知识库中检索到若干条相关的文档片段。再将这些检索到的片段作为额外的上下文信息，输入到生成模型中，从而生成更为准确和信息丰富的文本。RAG的工作原理可以分为以下几个步骤：1.接收请求：首先，系统接收到用户的请求（例如提出一个问题）。

langchain读pdf

08-25

您好！如果您想要将 PDF 文档转换成可读的文本，您可以使用 Python 的第三方库 `PyPDF2` 来实现。以下是一个简单的示例代码，能够读取一个 PDF 文档并将其内容打印出来： ```python import PyPDF2 def read_pdf(file_path): with open(file_path, 'rb') as file: pdf_reader = PyPDF2.PdfReader(file) num_pages = len(pdf_reader.pages) for page_num in range(num_pages): page = pdf_reader.pages[page_num] text = page.extract_text() print(f"Page {page_num + 1}:") print(text) # 调用函数，传入 PDF 文档的路径 read_pdf('path/to/your/pdf_file.pdf') ``` 请将 `'path/to/your/pdf_file.pdf'` 替换为您实际的 PDF 文件路径。运行代码后，您将会看到 PDF 文档的每一页的内容被打印输出。希望这能对您有所帮助！如果您有任何其他问题，请随时提问。

【 使用langchain对docx、pdf、txt文档进行自定义切分】

文章目录

业务背景

技术细节

【使用langchain对docx、pdf、txt文档进行自定义切分】