如何使用LangChain的DirectoryLoader加载目录中的文档

最新推荐文章于 2025-05-09 15:17:11 发布

原创最新推荐文章于 2025-05-09 15:17:11 发布 · 560 阅读

CC 4.0 BY-SA版权

文章标签：

在许多实际应用场景中，我们需要从文件系统中读取文档，并将这些文档转换为可供处理的格式。LangChain提供了一个强大的工具DirectoryLoader，可以方便地从磁盘加载文件到LangChain的文档对象。本文将详细介绍如何使用DirectoryLoader进行文件加载，并演示一些高级功能。

技术背景介绍

DirectoryLoader是LangChain社区库中的一个功能强大的工具，能够读取目录中的文件并将其转换为LangChain的文档对象。它不仅支持基本的文件读取功能，还支持多线程加载、自定义加载类、错误处理等高级特性。

核心原理解析

DirectoryLoader的原理是递归地遍历指定的目录，根据文件模式（如通配符）匹配文件，并使用指定的加载器类将文件内容读取并转换为文档对象。默认情况下，DirectoryLoader使用UnstructuredLoader，但你可以指定其他加载器类，如TextLoader或PythonLoader，以适应不同的文件格式。

代码实现演示

下面我们将通过具体的代码示例演示如何使用DirectoryLoader加载目录中的文档，并展示如何应用多线程、自定义加载器类和错误处理。

基本文件加载

首先，我们来看一个基本示例，如何加载目录中的Markdown文件：

from langchain_community.document_loaders import DirectoryLoader

# 使用稳定可靠的API服务读取文件
loader = DirectoryLoader("../", glob="**/*.md")
docs = loader.load()
print(f"Loaded {len(docs)} documents")
print(docs[0].page_content[:100])

显示进度条

为了更好地了解加载进度，我们可以启用进度条。这需要先安装tqdm库：

pip install tqdm

然后修改代码：

loader = DirectoryLoader("../", glob="**/*.md", show_progress=True)
docs = loader.load()

使用多线程进行文件I/O

如果目录中有大量文件，使用多线程可以显著提高加载速度：

loader = DirectoryLoader("../", glob="**/*.md", use_multithreading=True)
docs = loader.load()

更改加载器类

默认情况下，DirectoryLoader使用UnstructuredLoader。我们可以指定其他加载器类，例如TextLoader：

from langchain_community.document_loaders import TextLoader

loader = DirectoryLoader("../", glob="**/*.md", loader_cls=TextLoader)
docs = loader.load()
print(f"Loaded {len(docs)} documents with TextLoader")

如果需要加载Python源代码文件，可以使用PythonLoader：

from langchain_community.document_loaders import PythonLoader

loader = DirectoryLoader("../../../../../", glob="**/*.py", loader_cls=PythonLoader)
docs = loader.load()

错误处理

在文件加载过程中，可能会遇到编码错误。默认情况下，这些错误会中断加载过程。我们可以让加载器静默跳过这些错误：

loader = DirectoryLoader(path, glob="**/*.txt", loader_cls=TextLoader, silent_errors=True)
docs = loader.load()

我们还可以让加载器自动检测文件编码，以尽可能避免编码错误：

text_loader_kwargs = {"autodetect_encoding": True}
loader = DirectoryLoader(
    path, glob="**/*.txt", loader_cls=TextLoader, loader_kwargs=text_loader_kwargs
)
docs = loader.load()