LlamaIndex中的摄取管道:数据转换与缓存管理
在LlamaIndex中,摄取管道(IngestionPipeline)使用了一种称为“转换”(Transformations)的概念来处理输入数据。这些转换应用于你的输入数据,结果节点要么返回,要么插入到向量数据库中(如果提供了的话)。每个节点+转换组合都会被缓存,以便后续运行(如果缓存被持久化)时使用相同的节点+转换组合可以利用缓存结果,节省时间。
要查看摄取管道实际使用的交互式示例,请查看RAG CLI。
使用模式
最简单的使用方法是实例化一个摄取管道,如下所示:
from llama_index.core import Document
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.extractors import TitleExtractor
from llama_index.core.ingestion import IngestionPipeline, IngestionCache
# 创建带有转换的管道
pipeline = IngestionPipeline(
transformations=[
SentenceSplitter(chunk_size=25, chunk_overlap=0),
TitleExtractor(),
OpenAIEmbedding(),
]
)
# 运行管道
nodes = pipeline.run(documents=[Document.example()])
请注意,在实际场景中,你会从SimpleDirectoryReader或Llama Hub中的其他读取器获取文档。
连接到向量数据库
运行摄取管道时,你还可以选择自动将结果节点插入到远程向量存储中。然后,你可以稍后从该向量存储构建索引。
from llama_index.core import Document
from llama_index