《Advanced RAG》-05-探索语义分块(Semantic Chunking)

摘要

文章首先介绍了语义分块在 RAG 中的位置和作用,并介绍了常见的基于规则的分块方法。

然后,阐述了语义分块的目的是确保每个分块包含尽可能多的独立语义信息。

接着,文章分别介绍了三种语义分块方法的原理和实现方法,并对每种方法进行了总结和评估。

文章观点

  1. 语义分块是 RAG 中的一种重要技术,将文档分解成更小的块以提取详细的特征。
  2. 常见的分块方法是基于规则的方法,如固定块大小或相邻块重叠等。
  3. 语义分块的目的是确保每个分块包含尽可能多的独立语义信息。
  4. 基于嵌入的方法利用嵌入模型对文本进行语义分块,其中 LlamaIndex 和 Langchain 都提供了语义分块器。
  5. 基于模型的方法利用模型对文本进行语义分块,包括 Naive BERTCross Segment AttentionSeqModel
  6. 基于 LLM 的方法利用 LLM 构建命题进行语义分块,形成一个小到大的索引结构,提供了一种新的语义分块思路。

解析文档后,我们可以获得结构化或半结构化数据。现在的主要任务是将它们分解成更小的块来提取详细的特征,然后嵌入这些特征来表示它们的语义。其在 RAG 中的位置如图 1 所示。

在这里插入图片描述

大多数常用的分块方法都是基于规则的,采用固定分块大小或相邻分块重叠等技术。

对于多级文档,我们可以使用 Langchain 提供的 RecursiveCharacterTextSplitter。这允许定义多级分隔符。

然而,在实际应用中,由于预定义的规则(块大小或重叠部分的大小)过于死板,基于规则的分块方法很容易导致检索上下文不完整或包含噪声的块大小过大等问题。

因此,对于分块来说,最有效的方法显然是根据语义进行分块。语义分块旨在确保每个分块包含尽可能多的独立语义信息。

本文将探讨语义分块的方法,解释其原理和应用。我们将介绍三种方法:

  1. 基于嵌入式(Embedding-based)
  2. 基于模型(Model-based)
  3. 基于 LLM(LLM-based)

基于嵌入的方法(Embedding-based)

LlamaIndex 和 Langchain 都提供了基于嵌入的语义分块器。算法的思路大致相同,我们将以 LlamaIndex 为例进行说明。

请注意,要访问 LlamaIndex 中的语义分块器,您需要安装最新版本。我安装的前一个版本 0.9.45 并不包含这种算法。因此,我创建了一个新的 conda 环境,并安装了更新版本 0.10.12:

pip install llama-index-core
pip install llama-index-readers-file
pip install llama-index-embeddings-openai
pip install httpx[socks]

值得一提的是,LlamaIndex 0.10.12 可以灵活安装,因此这里只安装了一些关键组件。已安装的版本如下:

(llamaindex_010) Florian:~ Florian$ pip list | grep llama
llama-index-core              0.10.12
llama-index-embeddings-openai 0.1.6
llama-index-readers-file      0.1.5
llamaindex-py-client          0.1.13

测试代码如下

from llama_index.core.node_parser import (
    SentenceSplitter,
    SemanticSplitterNodeParser,
)
from llama_index.embeddings.openai import OpenAIEmbedding
from llama_index.core import SimpleDirectoryReader


import os
os.environ["OPENAI_API_KEY"] = "YOUR_OPEN_AI_KEY"# load documents
dir_path = "YOUR_DIR_PATH"
documents = SimpleDirectoryReader(dir_path).load_data()


embed_model = OpenAIEmbedding()
splitter = SemanticSplitterNodeParser(
    buffer_size=1, breakpoint_percentile_threshold=95, embed_model=embed_model
)

nodes = splitter.get_nodes_from_documents(documents)
for node in nodes:
    print('-' * 100)
    print(node.get_content())

我跟踪了 de>splitter.get_nodes_from_documents 函数,其主要过程如图 2 所示:

在这里插入图片描述

图 2 中提到的 "sentences"是一个 python 列表,其中每个成员都是一个字典,包含四个(键,值)对,键的含义如下:

  • sentence: 当前句子
  • **index****:**当前句子的序列号
  • **combined_sentence****:**一个滑动窗口,包括 [index -self.buffer_size, index, index + self.buffer_size] 3 个句子(默认情况下,self.buffer_size = 1)。它是用于计算句子间语义相关性的工具。合并前后句子的目的是减少噪音,更好地捕捉连续句子之间的关系。
  • **combined_sentence_embedding****:**合并句子的嵌入内容

从以上分析可以看出,基于嵌入的语义分块主要是根据滑动窗口(合并句子)计算相似度。那些相邻且符合阈值的句子会被归入一个语义块。

目录路径只包含一份 BERT 纸质文件。下面是一些运行结果:

(llamaindex_010) Florian:~ Florian$ python /Users/Florian/Documents/june_pdf_loader/test_semantic_chunk.py 
...
...
----------------------------------------------------------------------------------------------------
We argue that current techniques restrict the
power of the pre-trained representations, espe-
cially for the fine-tuning approaches. The ma-
jor limitation is that standard language models are
unidirectional, and this limits the choice of archi-
tectures that can be used during pre-training. For
example, in OpenAI GPT, the authors use a left-to-right architecture, where every token can only at-
tend to previous tokens in the self-attention layers
of the Transformer (Vaswani et al., 2017). Such re-
strictions are sub-optimal for sentence-level tasks,
and could be very harmful when applying fine-
tuning based approaches to token-level tasks such
as question answering, where it is crucial to incor-
porate context from both directions.
In this paper, we improve the fine-tuning based
approaches by proposing BERT: Bidirectional
Encoder Representations from Transformers.
BERT alleviates the previously mentioned unidi-
rectionality constraint by using a “masked lan-
guage model” (MLM) pre-training objective, in-
spired by the Cloze task (Taylor, 1953). The
masked language model randomly masks some of
the tokens from the input, and the objective is to
predict the original vocabulary id of the maskedarXiv:
### RAG Sequence NQ 技术概述 RAG (Retrieval-Augmented Generation) 模型中的 `sequence-nq` 特指一种特定配置下的检索增强生成模型,该配置特别针对自然问题(Natural Questions, NQ)。此配置旨在通过结合外部知识源来提高问答系统的性能。 #### 构建流程与机制 在构建过程中,`rag-sequence-nq` 使用了专门设计用于处理自然语言提问的数据集和方法论。具体来说: - **检索器组件**:采用密集向量表示法(Dense Passage Retrieval, DPR),能够更精准地定位到最相关的文档片段[^2]。 ```python from transformers import RagTokenizer, RagSequenceForGeneration tokenizer = RagTokenizer.from_pretrained("facebook/rag-sequence-nq") model = RagSequenceForGeneration.from_pretrained("facebook/rag-sequence-nq") ``` - **生成器模块**:基于T5架构进行了优化调整,使其更适合于从检索得到的信息中提炼出简洁而准确的答案。 这种组合方式不仅提升了对于复杂问题的理解能力,同时也增强了答案的质量和可靠性。 #### 实现细节 为了更好地理解其实现过程,下面提供了一个简单的Python代码示例,展示了如何加载并使用预训练好的`rag-sequence-nq`模型来进行问答操作: ```python from transformers import pipeline qa_pipeline = pipeline('question-generation', model='facebook/rag-sequence-nq') context = "The Eiffel Tower is a wrought iron lattice tower on the Champ de Mars in Paris." questions_answers = qa_pipeline(context) for q_a in questions_answers: print(f"Question: {q_a['question']}") print(f"Answer: {q_a['answer']}\n") ``` 这段代码首先创建了一个问答管道对象,接着定义了一段背景信息作为上下文,最后调用了pipeline函数执行具体的问答回路,并打印出了产生的问题及其对应的答案。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

静愚 AGI

你的善意终将流回自己,加油!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值