LlamaIndex 的Node节点后处理器模块介绍

泰山AI

已于 2024-09-25 15:34:04 修改

阅读量1.1k

点赞数 26

分类专栏：从零构建AI大模型：开发者实战指南文章标签：人工智能数据库前端 llamaindex python llm rag

于 2024-09-25 15:02:28 首次发布

本文链接：https://blog.youkuaiyun.com/weixin_40986713/article/details/142522930

版权

从零构建AI大模型：开发者实战指南专栏收录该内容

134 篇文章 ¥39.90 ¥99.00

订阅专栏

Node 后处理器模块

LlamaIndex 是一个旨在连接大型语言模型（LLMs）与外部数据的框架，允许开发者构建能够处理和回应复杂查询的应用程序。在这个框架内，NodePostProcessor 扮演着优化数据处理流程的重要角色。为了更好地理解 NodePostProcessor 在 LlamaIndex 中的作用及其具体实现方式，我们需要从其定义入手，并探讨其功能。

NodePostProcessor定义

在 LlamaIndex 的上下文中，NodePostProcessor 是一个在数据节点（Node）被处理之后进行额外操作的组件。这些操作可以包括但不限于数据的清洗、增强、过滤或转换等，目的是确保最终提供给LLM的数据是最优的，从而提高模型响应的质量。NodePostProcessor 是通过继承自 BaseNodePostprocessor 接口实现的，该接口定义了 _postprocess_nodes 方法，此方法接受一系列节点并返回经过处理后的节点列表。

NodePostProcessor功能详细介绍

数据清洗与隐私保护

NodePostProcessor 可用于对节点数据进行清洗，如移除无关的信息或者进行数据格式标准化。此外，它还能用于隐私信息的掩蔽（masking）。例如，NERPIINodePostprocessor 就是用来识别并掩蔽个人身份信息（PII）的 NodePostProcessor。通过使用命名实体识别（NER）模型，它可以检测并替换掉节点中的 PII 。

数据增强

另一个重要的功能是数据增强，这可以通过添加前后文相关的其他节点来实现，以此来丰富LLM的上下文理解。例如，PrevNextNodePostprocessor 可以用来向前或向后扩展节点，以便为模型提供更多的上下文信息，这对于提高问答系统的准确性和连贯性尤其有用。

结果重排（Reranking）

在一些场景下，NodePostProcessor 也可以用来对检索到的结果进行重排。通过重新评估和排序检索出的文档片段，可以确保最相关的信息优先呈现给用户。这种重排可以通过自定义 Rerank 功能的 NodePostProcessor 来实现，例如在 RAG（Retrieval-Augmented Generation）系统中。

动态捕捉视频后处理

虽然这不是 LlamaIndex 的直接应用场景，但从更广泛的视角来看，NodePostProcessor 的概念也被应用到了诸如动态捕捉视频数据的后处理中。在这种情况下，它被用来处理节点数据以创建运动捕捉视频。尽管这超出了 LlamaIndex 的原始设计范围，但它展示了 NodePostProcessor 概念的灵活性和可扩展性。

总结来说，NodePostProcessor 在 LlamaIndex 中是一个极其灵活的工具，它不仅限于上述功能，还可以根据具体的应用需求进行定制开发。无论是为了改善数据质量、增加上下文信息、保护隐私还是优化检索结果，NodePostProcessor 都能够发挥关键作用，使得 LlamaIndex 成为一个强大的工具箱，帮助开发者构建更加智能和高效的应用程序。

相似性节点后处理器SimilarityPostprocessor

用于删除低于相似性分数阈值的节点。

from llama_index.core.postprocessor import SimilarityPostprocessor

postprocessor = SimilarityPostprocessor(similarity_cutoff=0.7)

postprocessor.postprocess_nodes(nodes)

关键字节点后处理器 KeywordNodePostprocessor

用于确保排除或包含某些关键字。

from llama_index.core.postprocessor import KeywordNodePostprocessor

postprocessor = KeywordNodePostprocessor(
    required_keywords=["word1", "word2"], exclude_keywords=["word3", "word4"]
)

postprocessor.postprocess_nodes(nodes)

元数据替换后处理器 MetadataReplacementPostProcessor

用于将节点内容替换为节点元数据中的字段。如果元数据中不存在该字段，则节点文本将保持不变。与

.SentenceWindowNodeParser


from llama_index.core.postprocessor import MetadataReplacementPostProcessor

postprocessor = MetadataReplacementPostProcessor(
    target_metadata_key="window",
)

postprocessor.postprocess_nodes(nodes)

LongContextReorder 长上下文重排序处理器

模型难以访问在扩展上下文中心找到的重要细节。一项研究观察到，当关键数据位于输入上下文的开头或结尾时，通常会出现最佳性能。此外，随着输入上下文的延长，性能会显著下降，即使在为长上下文设计的模型中也是如此。

此模块将对检索到的节点重新排序，这在需要大量 top-k 的情况下会很有帮助。

from llama_index.core.postprocessor import LongContextReorder

postprocessor = LongContextReorder()

postprocessor.postprocess_nodes(nodes)

句子嵌入优化器 SentenceEmbeddingOptimizer

此后处理器通过删除与查询无关的句子来优化令牌使用（这是使用 embeddings 完成的）。

百分位截止值是使用相关句子的最高百分比的度量。

可以改为指定阈值截止值，它使用原始相似度截止值来选择要保留的句子。

from llama_index.core.postprocessor import SentenceEmbeddingOptimizer

postprocessor = SentenceEmbeddingOptimizer(
    embed_model=service_context.embed_model,
    percentile_cutoff=0.5,
    # threshold_cutoff=0.7
)

postprocessor.postprocess_nodes(nodes)

Cohere重排处理器 CohereRerank

使用“Cohere ReRank”功能对节点重新排序，并返回前N个节点。

from llama_index.postprocessor.cohere_rerank import CohereRerank

postprocessor = CohereRerank(
    top_n=2, model="rerank-english-v2.0", api_key="YOUR COHERE API KEY"
)

postprocessor.postprocess_nodes(nodes)

句子转换推理重排 SentenceTransformerRerank

使用包中的交叉编码器对节点重新排序，并返回前N个节点

from llama_index.core.postprocessor import SentenceTransformerRerank

# We choose a model with relatively high speed and decent accuracy.
postprocessor = SentenceTransformerRerank(
    model="cross-encoder/ms-marco-MiniLM-L-2-v2", top_n=3
)

postprocessor.postprocess_nodes(nodes)

另请参阅 sentence-transformer 文档以获取更完整的模型列表（并且还显示了速度/准确性的权衡）。默认模型是 cross-encoder/ms-marco-TinyBERT-L-2-v2，它提供的速度最块的。

LLM 重新排名 LLMRerank

使用 LLM 对节点重新排序，方法是要求 LLM 返回相关文档及其相关性的分数。返回排名前 N 的节点。

from llama_index.core.postprocessor import LLMRerank

postprocessor = LLMRerank(top_n=2, service_context=service_context)

postprocessor.postprocess_nodes(nodes)

Jina重排器 JinaRerank

使用 Jina ReRank 功能对节点进行重新排序，并返回前 N 个节点。

from llama_index.postprocessor.jinaai_rerank import JinaRerank

postprocessor = JinaRerank(
    top_n=2, model="jina-reranker-v1-base-en", api_key="YOUR JINA API KEY"
)

postprocessor.postprocess_nodes(nodes)

FixedRecencyPostprocessor （固定新近度后处理器）

此 postproccesor 返回按日期排序的前 K 个节点。这假定每个节点的元数据中都有一个要解析的字段。date

from llama_index.core.postprocessor import FixedRecencyPostprocessor

postprocessor = FixedRecencyPostprocessor(
    tok_k=1, date_key="date"  # the key in the metadata to find the date
)

postprocessor.postprocess_nodes(nodes)

EmbeddingRecencyPostprocessor （嵌入近期后处理器）

这个后处理器在按日期排序后返回前K个节点，并在测量嵌入相似度后删除过于相似的旧节点。

from llama_index.core.postprocessor import EmbeddingRecencyPostprocessor

postprocessor = EmbeddingRecencyPostprocessor(
    service_context=service_context, date_key="date", similarity_cutoff=0.7
)

postprocessor.postprocess_nodes(nodes)

TimeWeightedPostprocessor （时间加权后处理器）

该后处理器对每个节点应用时间加权重排序，返回前K个节点。每次检索节点时，都会记录检索节点的时间。这会使搜索偏向于那些尚未在查询中返回的信息。

from llama_index.core.postprocessor import TimeWeightedPostprocessor

postprocessor = TimeWeightedPostprocessor(time_decay=0.99, top_k=1)

postprocessor.postprocess_nodes(nodes)

(Beta) PIINodePostprocessor （个人敏感信息处理器）

PII(个人可识别信息)后处理器可删除可能存在安全风险的信息。它通过使用NER(或者使用专用的NER模型，或者使用本地的LLM模型)来实现这一点。

LLM Version

from llama_index.core.postprocessor import PIINodePostprocessor

postprocessor = PIINodePostprocessor(
    service_context=service_context  # this should be setup with an LLM you trust
)

postprocessor.postprocess_nodes(nodes)

NER Version

这个版本使用的是当你运行.pipeline(“ner”)时加载的hug Face的默认本地模型。

from llama_index.core.postprocessor import NERPIINodePostprocessor

postprocessor = NERPIINodePostprocessor()

postprocessor.postprocess_nodes(nodes)

A full notebook guide for both can be found here.

(Beta) PrevNextNodePostprocessor （上一页下一页节点处理器）

使用预定义的设置读取关系并获取前面、后面或两者的所有节点。节点

当您知道这些关系指向重要数据(在检索节点之前、之后或两者都指向重要数据)时，这些数据应该发送给LLM，这将非常有用。

from llama_index.core.postprocessor import PrevNextNodePostprocessor

postprocessor = PrevNextNodePostprocessor(
    docstore=index.docstore,
    num_nodes=1,  # number of nodes to fetch when looking forawrds or backwards
    mode="next",  # can be either 'next', 'previous', or 'both'
)

postprocessor.postprocess_nodes(nodes)

（Beta）AutoPrevNextNodePostprocessor 自动上一页下一页节点处理器）

与 PrevNextNodePostprocessor 相同，但让 LLM 决定模式（下一个、上一个或两者）。

from llama_index.core.postprocessor import AutoPrevNextNodePostprocessor

postprocessor = AutoPrevNextNodePostprocessor(
    docstore=index.docstore,
    service_context=service_context,
    num_nodes=1,  # number of nodes to fetch when looking forawrds or backwards)
)
postprocessor.postprocess_nodes(nodes)

#（测试版）RankGPT( GPT排名处理器)

使用 RankGPT 代理根据相关性对文档进行重新排序。返回排名前 N 的节点。

from llama_index.postprocessor.rankgpt_rerank import RankGPTRerank

postprocessor = RankGPTRerank(top_n=3, llm=OpenAI(model="gpt-3.5-turbo-16k"))

postprocessor.postprocess_nodes(nodes)

ColbertRerank （Colbert重排处理器）

使用 Colbert V2 模型作为 reranker，根据 query token 和 passage token 之间的细粒度相似性对文档进行重新排序。返回排名前 N 的节点。

from llama_index.postprocessor.colbert_rerank import ColbertRerank

colbert_reranker = ColbertRerank(
    top_n=5,
    model="colbert-ir/colbertv2.0",
    tokenizer="colbert-ir/colbertv2.0",
    keep_retrieval_score=True,
)

query_engine = index.as_query_engine(
    similarity_top_k=10,
    node_postprocessors=[colbert_reranker],
)
response = query_engine.query(
    query_str,
)

完整的笔记本指南可在此处获取。

rankLLM (LLM排名处理器)

使用rankLLM中的模型对文档进行重新排序。返回排名前 N 的节点。

from llama_index.postprocessor.rankllm_rerank import RankLLMRerank

# RankZephyr reranker, return top 5 candidates
reranker = RankLLMRerank(model="rank_zephyr", top_n=5)
reranker.postprocess_nodes(nodes)