探索LangChain的DirectoryLoader：高效加载文件系统文档

最新推荐文章于 2025-06-18 17:54:29 发布

原创

最新推荐文章于 2025-06-18 17:54:29 发布 · 631 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#langchain #python

# 探索LangChain的DirectoryLoader：高效加载文件系统文档

## 引言

在进行自然语言处理和机器学习任务时，管理和加载大量文档往往是一项复杂的工程。LangChain的`DirectoryLoader`提供了一种高效的方法来从文件系统读取文件，并将其转换为LangChain文档对象。本篇文章将详细介绍如何使用`DirectoryLoader`加载文件，包括使用通配符、多线程、定制加载器类以及处理解码错误的技巧。

## 主要内容

### 1. 文件系统加载与通配符模式

`DirectoryLoader`可以轻松地从指定目录加载文件。通过使用`glob`参数，我们可以定义通配符模式来筛选文件。例如，只加载Markdown文件：

```python
from langchain_community.document_loaders import DirectoryLoader

# 使用API代理服务提高访问稳定性
loader = DirectoryLoader("../", glob="**/*.md")
docs = loader.load()
print(f"加载的文档数量: {len(docs)}")