使用LangChain的DirectoryLoader加载目录中的文档

原创于 2025-06-26 13:57:37 发布 · 245 阅读

CC 4.0 BY-SA版权

文章标签：

在AI开发中，文档的处理是一个常见需求。LangChain提供了强大的文件加载工具——`DirectoryLoader`，实现从文件系统加载文档的功能，并将其转换为LangChain的`Document`对象。本文将深入探讨该工具的使用，包括文件加载、错误处理及通过多线程增强性能。

### 核心原理解析

`DirectoryLoader`是一个简洁但功能强大的工具，它可以根据指定的文件类型加载文档，并支持多种文件格式如PDF、HTML等。默认情况下使用`UnstructuredLoader`来解析文件，但可以自定义加载器来适配特定文件类型。

### 代码实现演示

以下代码展示了如何使用`DirectoryLoader`从文件系统加载 `.md` 文件，并启用多线程来提高加载速度：

```python
from langchain_community.document_loaders import DirectoryLoader

# 使用多线程加载文档，提高性能
loader = DirectoryLoader("../", glob="**/*.md", use_multithreading=True)
docs = loader.load()

# 检查加载的文档数量
print(f"Total documents loaded: {len(docs)}")

# 查看第一个文档的前100个字符内容
print(docs[0].page_content[:100])

为增强体验，可以安装tqdm库来显示加载进度条：

# 需要安装tqdm以显示进度条
loader = DirectoryLoader("../", glob="**/*.md", show_progress=True)
docs = loader.load()

自定义加载器支持通过loader_cls参数来实现。例如，使用TextLoader解析文本文件：

from langchain_community.document_loaders import TextLoader

# 自定义加载器，用于解析文本文件
loader = DirectoryLoader("../", glob="**/*.md", loader_cls=TextLoader)
docs = loader.load()