定义和自定义文档(Defining and Customizing Documents)

定义和自定义文档(Defining and Customizing Documents)

定义文档(Defining Documents)

文档可以通过数据加载器自动创建,也可以手动构造。

默认情况下,我们所有的数据加载器(包括 LlamaHub 提供的那些)通过 load_data 函数返回 Document 对象。

from llama_index.core import SimpleDirectoryReader

documents = SimpleDirectoryReader("./data").load_data()

你也可以选择手动构造文档。LlamaIndex 暴露了 Document 结构体。

from llama_index.core import Document

text_list = [text1, text2, ...]  # 假设 text1, text2 等是你的文本数据
documents = [Document(text=t) for t in text_list]

为了加快原型设计和开发,你还可以使用一些默认文本快速创建文档:

document = Document.example()
自定义文档(Customizing Documents)

本节介绍各种自定义 Document 对象的方法。由于 Document 对象是 TextNode 对象的子类,所有这些设置和细节也适用于 TextNode 对象类。

元数据(Metadata)

文档还提供了包含有用元数据的机会。使用每个文档上的 metadata 字典,可以包含额外的信息,以帮助通知响应并跟踪查询响应的来源。这些信息可以是任何内容,例如文件名或类别。如果你与向量数据库集成,请记住一些向量数据库要求键必须是字符串,值必须是平面的(字符串、浮点数或整数)。

每个文档的 metadata 字典中设置的任何信息都会出现在从文档创建的每个源节点的元数据中。此外,这些信息包含在节点中,使索引能够在查询和响应中利用它。默认情况下,元数据会注入到文本中

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

需要重新演唱

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值