前言
当信息检索无法命中精准全面的内容时,即使最强大的语言模型也会陷入’无米之炊’的困境,甚至生成看似合理实则谬误的’幻觉’内容。本文将从数据源头和查询入口切入,聚焦检索前中环节的优化,直击’查无结果’与’结果失准’两大核心痛点。
直接上干货
一、从文档生成QA对,创造更多的检索入口
1、核心思想:
这是一项极大提升召回率的王牌策略。其核心思想是:用户的提问方式千变万化,直接用问题去匹配一段陈述性的文档,在语义上可能存在鸿沟。但用“问题”去匹配“问题”,则要容易和精准得多。
2、原理:
(1)对每一个文档块,我们调用LLM,反向生成几个用户可能会提出的、能够被这个文档块回答的问题。
(2)在构建索引时,我们只对这些新生成的“代理问题”进行向量化。
(3)同时,我们将这些“代理问题”全部链接到它们所源自的那个原始文档块的ID。
(4)当用户提问时,系统会在“代理问题”的向量库中进行搜索。一旦匹配成功,系统不会返回这个代理问题,而是通过ID找到并返回那个包含完整答案的原始文档块。
3、优点:
为单个知识点创建了多个不同的语义入口,即使用户的提问方式很刁钻,只要能和其中一个代理问题对上,就能找到正确答案,召回率大大提升。
4、代码示例:
from langchain.storage import InMemoryStore
from langchain_core.documents import Document
from langchain.retrievers.multi_vector import MultiVectorRetriever
from langchain_core.output_parsers import StrOutputParser
from langchain_core.prompts import ChatPromptTemplate
import uuid
docs = [
Document(page_content="RAG-Fusion通过生成多个查询变体并使用RRF算法智能排序来提升检索相关性。", metadata={
"doc_id": str(uuid.uuid4())}),
Document(page_content="假设性文档嵌入(HyDE)先让LLM生成一个理想答案,再用该答案的嵌入来检索真实文档。", metadata={
"doc_id": str(uuid.uuid4())}),
]
doc_ids =

最低0.47元/天 解锁文章
7448

被折叠的 条评论
为什么被折叠?



