在当今大模型应用中,检索增强生成(RAG) 已成为解决知识更新和幻觉问题的关键技术,但超过70%的RAG系统在首次部署后都面临答案不精准的困扰——而引入Rerank重排序机制,正是解开这一困局的关键密钥。
一、RAG的精度困境:当“近似”检索遇到生成需求
在经典RAG流程中,系统通过以下步骤运作:
- 用户查询被Embedding模型转换为向量
- 在向量数据库中进行相似度搜索(ANN)
- 返回Top-K相关文档
- 提示工程组合查询与上下文
- 大语言模型(LLM) 基于上下文生成答案
这一架构的核心问题在于:向量检索的相似度计算本质上是信息压缩后的近似匹配。当Embedding模型将文本压缩为768或1536维向量时,语义信息的丢失不可避免。例如:
- “苹果公司新品发布会”与“水果苹果种植技术”在向量空间可能因“苹果”一词而接近
- “Java并发编程”与“印尼爪哇岛旅游”可能因“Java”产生误匹配
更关键的是,LLM的上下文窗口限制与召回率需求形成了根本矛盾:
- 若返回文档太少