08 数据加载(摄取):LlamaIndex中的数据处理与加载

数据加载(摄取):LlamaIndex中的数据处理与加载

在选择的LLM能够处理你的数据之前,你首先需要处理和加载数据。这类似于机器学习世界中的数据清洗/特征工程管道,或传统数据设置中的ETL管道。

这个摄取管道通常包括三个主要阶段:

  1. 加载数据
  2. 转换数据
  3. 索引和存储数据

我们将在后续章节中讨论索引/存储。在本指南中,我们将主要讨论加载器和转换。

加载器

在选择的LLM能够处理你的数据之前,你需要加载它。LlamaIndex通过数据连接器(也称为Reader)来实现这一点。数据连接器从不同的数据源摄取数据,并将数据格式化为Document对象。Document是数据的集合(目前是文本,未来还会有图像和音频)以及关于该数据的元数据。

使用SimpleDirectoryReader加载

最简单的Reader是我们内置的SimpleDirectoryReader,它从给定目录中的每个文件创建文档。它可以读取多种格式,包括Markdown、PDF、Word文档、PowerPoint幻灯片、图像、音频和视频。

from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader("./data").load_data()

使用LlamaHub中的Reader

由于有太多可能的数据来源,它们并不都是内置的。相反,你可以从我们的数据连接器注册表LlamaHub中下载它们。

在这个例子中,LlamaIndex下载并安装了名为DatabaseReader的连接器,它对SQL数据库运行查询,并将结果的每一行作为Document返回:

from llama_index.core import download_loader
from llama_index.readers.database import DatabaseReader

reader = DatabaseReader(
    scheme=os.getenv("DB_SCHEME"),
    host=os.getenv
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

需要重新演唱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值