数据加载(摄取):LlamaIndex中的数据处理与加载
在选择的LLM能够处理你的数据之前,你首先需要处理和加载数据。这类似于机器学习世界中的数据清洗/特征工程管道,或传统数据设置中的ETL管道。
这个摄取管道通常包括三个主要阶段:
- 加载数据
- 转换数据
- 索引和存储数据
我们将在后续章节中讨论索引/存储。在本指南中,我们将主要讨论加载器和转换。
加载器
在选择的LLM能够处理你的数据之前,你需要加载它。LlamaIndex通过数据连接器(也称为Reader)来实现这一点。数据连接器从不同的数据源摄取数据,并将数据格式化为Document对象。Document是数据的集合(目前是文本,未来还会有图像和音频)以及关于该数据的元数据。
使用SimpleDirectoryReader加载
最简单的Reader是我们内置的SimpleDirectoryReader,它从给定目录中的每个文件创建文档。它可以读取多种格式,包括Markdown、PDF、Word文档、PowerPoint幻灯片、图像、音频和视频。
from llama_index.core import SimpleDirectoryReader
documents = SimpleDirectoryReader("./data").load_data()
使用LlamaHub中的Reader
由于有太多可能的数据来源,它们并不都是内置的。相反,你可以从我们的数据连接器注册表LlamaHub中下载它们。
在这个例子中,LlamaIndex下载并安装了名为DatabaseReader的连接器,它对SQL数据库运行查询,并将结果的每一行作为Document返回:
from llama_index.core import download_loader
from llama_index.readers.database import DatabaseReader
reader = DatabaseReader(
scheme=os.getenv("DB_SCHEME"),
host=os.getenv

最低0.47元/天 解锁文章
1251

被折叠的 条评论
为什么被折叠?



