llamaindex 元数据提取

最新推荐文章于 2025-06-10 16:43:41 发布

原创

最新推荐文章于 2025-06-10 16:43:41 发布 · 782 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#llamaindex #RAG #AI

元数据提取

概念解释

在许多情况下，尤其是对于长文档，一段文本可能缺乏必要的上下文来区分它与其他相似的文本块。为了解决这个问题，我们使用大型语言模型（LLMs）来提取与文档相关的某些上下文信息，以更好地帮助检索和语言模型区分看起来相似的段落。

使用方法

首先，我们定义一个元数据提取器，它接收一个特征提取器列表，这些提取器将按顺序处理。然后，我们将这个提取器传递给节点解析器，节点解析器会将额外的元数据添加到每个节点中。

from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.extractors import (
    SummaryExtractor,
    QuestionsAnsweredExtractor,
    TitleExtractor,
    KeywordExtractor,
)
from llama_index.extractors.entity import EntityExtractor

transformations = [
    SentenceSplitter(),
    TitleExtractor(nodes=5),
    QuestionsAnsweredExtractor