llamaindex SimpleDirectoryReader的使用

最新推荐文章于 2025-06-11 10:55:40 发布

原创

最新推荐文章于 2025-06-11 10:55:40 发布 · 2k 阅读

12 ·

CC 4.0 BY-SA版权

文章标签：

#RAG #llamaindex

SimpleDirectoryReader

概念解释

SimpleDirectoryReader 是 LlamaIndex 中加载本地文件数据的最简单方式。对于生产用例，你可能更倾向于使用 LlamaHub 上提供的众多读取器之一，但 SimpleDirectoryReader 是开始使用的好方法。

支持的文件类型

默认情况下，SimpleDirectoryReader 会尝试读取它找到的任何文件，并将它们都视为文本文件。除了纯文本之外，它还明确支持以下文件类型，这些文件类型是根据文件扩展名自动检测的：

.csv - 逗号分隔值
.docx - Microsoft Word
.epub - EPUB 电子书格式
.hwp - Hangul Word Processor
.ipynb - Jupyter Notebook
.jpeg, .jpg - JPEG 图像
.mbox - MBOX 电子邮件存档
.md - Markdown
.mp3, .mp4 - 音频和视频
.pdf - 便携式文档格式
.png - 便携式网络图形
.ppt, .pptm, .pptx - Microsoft PowerPoint

你可能期望在这里找到 JSON 文件类型；对于 JSON，我们建议你使用我们的 JSON 加载器。

使用方法

最基本的用法是传递一个 input_dir，它将加载该目录中的所有支持文件：

from llama_index.core import SimpleDirectoryReader

reader = SimpleDirectoryReader(input_dir="path/to/directory")
documents = reader.load_data()

如果从一个目录中加载许多文件，可以使用并行处理来加载文档。注意，在 Windows 和 Linux/MacOS 机器上使用多进程时存在差异，这在多进程文档中有解释（例如，参见这里）。最终，Windows 用户可能会看到较少或没有性能提升，而 Linux/MacOS 用户在加载相同的一组文件时会看到这些提升。

documents = reader.load_data(num_workers=4)

从子目录读取

默认情况下，SimpleDirectoryReader 只会读取目录顶层的文件。要从子目录读取文件，请设置 recursive=True：

SimpleDirectoryReader(input_dir="path/to/directory"

最低0.47元/天解锁文章