元数据提取
概念解释
在许多情况下,尤其是对于长文档,一段文本可能缺乏必要的上下文来区分它与其他相似的文本块。为了解决这个问题,我们使用大型语言模型(LLMs)来提取与文档相关的某些上下文信息,以更好地帮助检索和语言模型区分看起来相似的段落。
使用方法
首先,我们定义一个元数据提取器,它接收一个特征提取器列表,这些提取器将按顺序处理。然后,我们将这个提取器传递给节点解析器,节点解析器会将额外的元数据添加到每个节点中。
from llama_index.core.node_parser import SentenceSplitter
from llama_index.core.extractors import (
SummaryExtractor,
QuestionsAnsweredExtractor,
TitleExtractor,
KeywordExtractor,
)
from llama_index.extractors.entity import EntityExtractor
transformations = [
SentenceSplitter(),
TitleExtractor(nodes=5),
QuestionsAnsweredExtractor