高阶RAG技巧（四）后检索优化：重新排序、上下文后处理、提示工程、LLM 微调

最新推荐文章于 2025-06-13 08:00:00 发布

大模型面试

最新推荐文章于 2025-06-13 08:00:00 发布

阅读量1k

点赞数 11

文章标签：人工智能自然语言处理 agi 大模型 LLM ai RAG

本文链接：https://blog.youkuaiyun.com/Code1994/article/details/145831983

版权

四、后检索优化

检索后优化技术旨在提高生成的响应的质量，这意味着它们的工作在检索过程完成后开始。这组多样化的技术包括使用模型对检索结果进行重新排序、增强或压缩检索到的上下文、提示工程以及在外部数据上微调生成 LLM。

1、重新排序（Re-Ranking）

一种行之有效的提高信息检索系统性能的方法是利用检索和重新排序流水线。检索和重新排序流水线将向量搜索的速度与重新排序模型的上下文丰富性相结合。

在向量搜索中，查询和文档是分开处理的。首先，对文档进行预索引。然后，在查询时，处理查询，并检索向量空间中最接近的文档。虽然向量搜索是一种快速检索候选的方法，但它可能会错过上下文细微差别。

这就是重新排序模型发挥作用的地方。由于重新排序模型在查询时会同时处理查询和文档，因此它们可以捕获更多上下文细微差别。但是，它们通常很复杂且资源密集，因此不适合像向量搜索这样的第一阶段检索。

通过将向量搜索与重新排序模型相结合，我们可以快速地收集大量潜在候选者，然后对它们进行重新排序，以提高提示中相关上下文的质量。

请注意，在使用重新排序模型时，我们应该过度检索块，以便稍后过滤掉不太相关的块。

2、上下文后处理（Context Post-Processing）

检索后，对检索到的上下文进行后处理以便生成会大有裨益。例如，如果检索到的上下文可能受益于附加信息，则可以使用元数据对其进行增强。另一方面，如果它包含冗余数据，则可以对其进行压缩。

使用元数据进行上下文增强（Context Enhancement with Metadata）

一种后处理技术是使用元数据通过附加信息增强检索到的上下文，以提高生成准确性。虽然我们可以简单地从元数据中添加附加信息，例如时间戳、文档名称等，但我们也可以应用更具创意的技术。

当数据需要预处理成较小的块大小以实现更好的检索精度，但其不包含足够的上下文信息来生成高质量的响应时，上下文增强特别有用。在这种情况下，我们可以应用一种称为“句子窗口检索”（Sentence window retrieval）的技术。此技术将初始文档分块成较小的部分（通常是单个句子），但在其元数据中存储较大的上下文窗口。在检索时，较小的块有助于提高检索精度。检索后，检索到的较小块将被较大的上下文窗口替换，以提高生成质量。

上下文压缩（Context Compression）

RAG 系统依赖各种知识源来检索相关信息。然而，这通常会导致检索不相关或冗余的数据，从而导致响应不理想和 LLM 调用成本高昂（更多 token）。

上下文压缩通过从检索到的数据中提取最有意义的信息，有效地解决了这一挑战。此过程从基本检索器开始，该检索器检索与查询相关的文档/块。然后，这些文档/块通过文档压缩器进行压缩，以缩短它们并消除不相关的内容，确保有价值的数据不会丢失在大量无关信息中。

上下文压缩减少了数据量，降低了检索和运营成本。当前的研究主要集中在两种方法上：基于嵌入和基于词汇的压缩，这两种方法都旨在保留基本信息，同时减轻 RAG 系统的计算需求。

3、提示工程（Prompt Engineering）

LLM 的生成输出受其相应提示的质量、语气、长度和结构的影响很大。提示工程是优化 LLM 提示以提高生成输出的质量和准确性的实践。提示工程通常是改进 RAG 系统的技术中最容易实现的成果之一，它不需要对底层 LLM 本身进行更改。这使得它成为一种高效且易于访问的方法来提高性能，而无需进行复杂的修改。

有几种不同的提示技术在改进 RAG 流水线方面特别有用。

CoT (Chain of Thought，思维链) 提示涉及要求模型“逐步思考”，并将复杂的推理任务分解为一系列中间步骤。当检索到的文档包含需要仔细分析的冲突或密集信息时，这尤其有用。

ToT (Tree of Thoughts，思维树) 提示以 CoT 为基础，指示模型评估其在解决问题过程中每一步的响应，甚至生成问题的几种不同解决方案并选择最佳结果。当存在许多潜在证据时，这在 RAG 中很有用，并且模型需要根据多个检索到的文档权衡不同的可能答案。

ReAct（Reasoning and Acting，推理和行动）提示将 CoT 与 Agent 相结合，创建了一个系统，其中模型可以生成想法并将行动委托给 Agent，Agent 在迭代过程中与外部数据源交互。ReAct 可以通过使 LLM 能够动态地与检索到的文档交互、根据外部知识更新推理和行动来改进 RAG 流水线，从而提供更准确、更符合上下文的响应。