使用SimpleDirectoryReader加载本地文件到LlamaIndex
在LlamaIndex中,SimpleDirectoryReader是加载本地文件数据的最简单方法。虽然对于生产用例,你可能更倾向于使用LlamaHub上提供的众多读取器之一,但SimpleDirectoryReader是入门的好方法。
支持的文件类型
默认情况下,SimpleDirectoryReader会尝试读取它找到的所有文件,并将它们都视为文本文件。除了纯文本,它还明确支持以下文件类型,这些类型是根据文件扩展名自动检测的:
.csv- 逗号分隔值.docx- Microsoft Word.epub- EPUB电子书格式.hwp- Hangul文字处理器.ipynb- Jupyter Notebook.jpeg,.jpg- JPEG图像.mbox- MBOX电子邮件存档.md- Markdown.mp3,.mp4- 音频和视频.pdf- 便携式文档格式.png- 便携式网络图形.ppt,.pptm,.pptx- Microsoft PowerPoint
你可能期望在这里找到JSON文件类型;对于JSON,我们推荐使用我们的JSON加载器。
使用方法
最基本的用法是传递一个input_dir,它将加载该目录中的所有支持文件:
from llama_index.core import SimpleDirectoryReader
reader = SimpleDirectoryReader(input_dir="path/to/directory")
documents = reader.load_data()
如果从一个目录中加载许多文件,可以使用并行处理来加载文档。注意,在Windows和Linux/MacOS机器上使用多进程时存在差异,这在多进程文档中有解释。最终,Windows用户可能看不到性能提升,而Linux/MacOS用户在加载相同文件集时会看到这些提升。
documents = reader.load_data(num_workers=4)
从子目录读取
默认情况下,SimpleDirectoryReader只会读取目录顶层的文件。要从子目录读取文件,设置recursive=True:
SimpleDirectoryReader(input_dir="path/to/directory", recurs

最低0.47元/天 解锁文章
3023

被折叠的 条评论
为什么被折叠?



