提高RAG检索召回率的方式

原创

已于 2025-08-18 16:48:49 修改 · 317 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #AIGC #自然语言处理 #nlp #大数据

于 2025-08-18 16:46:23 首次发布

前言

当信息检索无法命中精准全面的内容时，即使最强大的语言模型也会陷入’无米之炊’的困境，甚至生成看似合理实则谬误的’幻觉’内容。本文将从数据源头和查询入口切入，聚焦检索前中环节的优化，直击’查无结果’与’结果失准’两大核心痛点。

直接上干货

一、从文档生成QA对，创造更多的检索入口

1、核心思想：

这是一项极大提升召回率的王牌策略。其核心思想是：用户的提问方式千变万化，直接用问题去匹配一段陈述性的文档，在语义上可能存在鸿沟。但用“问题”去匹配“问题”，则要容易和精准得多。

2、原理：

（1）对每一个文档块，我们调用LLM，反向生成几个用户可能会提出的、能够被这个文档块回答的问题。
（2）在构建索引时，我们只对这些新生成的“代理问题”进行向量化。
（3）同时，我们将这些“代理问题”全部链接到它们所源自的那个原始文档块的ID。
（4）当用户提问时，系统会在“代理问题”的向量库中进行搜索。一旦匹配成功，系统不会返回这个代理问题，而是通过ID找到并返回那个包含完整答案的原始文档块。

3、优点：

为单个知识点创建了多个不同的语义入口，即使用户的提问方式很刁钻，只要能和其中一个代理问题对上，就能找到正确答案，召回率大大提升。

4、代码示例：

from langchain.storage import InMemoryStore
from langchain_core.documents import Document
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
import uuid
docs = [
    Document(page_content="RAG-Fusion通过生成多个查询变体并使用RRF算法智能排序来提升检索相关性。", metadata={
   
   "doc_id": str(uuid.uuid4())}),
    Document(page_content="假设性文档嵌入（HyDE）先让LLM生成一个理想答案，再用该答案的嵌入来检索真实文档。", metadata={
   
   "doc_id": str(uuid.uuid4())}),
]
doc_ids =

最低0.47元/天解锁文章