文档和节点(Documents / Nodes)
概念解释
在 LlamaIndex 中,Document 和 Node 对象是核心抽象。
-
Document:是一个通用容器,可以包含任何数据源,例如 PDF、API 输出或从数据库中检索的数据。它们可以手动构造,也可以通过我们的数据加载器自动创建。默认情况下,
Document存储文本以及其他一些属性,例如:metadata:一个字典,包含可以附加到文本的注释。relationships:一个字典,包含与其他Document或Node的关系。
注意:我们正在积极改进其多模态能力,目前支持
Document存储图像的 beta 版本。 -
Node:表示源
Document的一个“块”,无论是文本块、图像还是其他。与Document类似,它们包含元数据和与其他节点的关系信息。Node是 LlamaIndex 中的一等公民。你可以选择直接定义Node及其所有属性。你也可以选择通过我们的NodeParser类将源Document解析为Node。默认情况下,从Document派生的每个Node将继承该Document的相同元数据(例如,Document中的“file_name”字段会传播到每个Node)。
使用模式
以下是一些简单的代码片段,帮助你开始使用 Document 和 Node。
文档(Documents)
from llama_index.core import Document, VectorStoreIndex
text_list = [text1, text2, ...] # 假设 text1, text2 等是你的文本数据
documents = [Document(text=t) for t in text_list]
# 构建索引
index

最低0.47元/天 解锁文章
498

被折叠的 条评论
为什么被折叠?



