RAG（Retrieval Augmented Generation）学习

潇锐killer

已于 2025-01-17 13:43:26 修改

阅读量850

点赞数 24

CC 4.0 BY-SA版权

分类专栏：大模型应用文章标签：人工智能 milvus

于 2024-06-13 17:24:11 首次发布

本文链接：https://blog.youkuaiyun.com/wangqiaowq/article/details/139659730

大模型应用专栏收录该内容

47 篇文章

订阅专栏

cAsk AI 上线！构建企业级的 Chatbot

基于 Milvus + LlamaIndex 实现高级 RAG

参考以上文档：

初级 RAG 的定义

初级 RAG 研究范式代表了最早的方法论，在 ChatGPT 广泛采用后不久就取得了重要地位。初级 RAG 遵循传统的流程，包括索引创建（Indexing）、检索（Retrieval）和生成（Generation），常常被描绘成一个“检索—读取”框架，其工作流包括三个关键步骤：

语料库被划分为离散的块，然后使用编码器模型构建向量索引。
RAG 根据查询与索引块（Indexed Chunk）的向量相似度识别并对块进行检索。
模型根据检索块（Retrieved Chunk）中获取的上下文信息生成答案。
初级 RAG 的局限性

初级 RAG 在三个关键领域面临着显著挑战："检索"、"生成"和"增强"。

低精度会导致检索到的块无法对齐，以及幻觉等潜在问题。低召回率会导致无法检索到所有的相关块，从而导致LLM的回复不够全面。此外，使用老旧的信息进一步加剧了问题，可能导致不准确的检索结果。

生成回复质量面临着幻觉挑战，即 LLM 生成的答案并没有基于所提供的上下文，和上下文不相关，或者生成的回复存在着包含有害或歧视内容的潜在风险。

在增强过程中，初级 RAG 在如何有效地将检索到的段落的上下文与当前生成任务进行整合方面也面临着不小的挑战。低效的整合可能导致输出不连贯或破碎化。冗余和重复也是一个棘手的问题，特别是当多个检索到的段落包含相似信息时，生成的回复中可能会出现重复的内容。

高级 RAG

检索前优化

检索前的优化关注数据索引优化以及查询优化，数据索引优化技术旨在以提高检索效率的方式存储数据：

滑动窗口：在数据块之间使用重叠，这是最简单的技术之一。
增强数据粒度：应用数据清理技术，例如移除不相关信息、确认事实准确性、更新过时信息等。
添加元数据：如用于过滤的日期、目的或章节信息等。
优化索引结构涉及不同的数据索引策略：如调整块大小或使用多索引策略。本文我们将实现的一种技术是句子窗口检索，它在检索时嵌入单个句子，并在推断时用更大的文本窗口替换它们。

检索中优化

检索阶段主要是识别最相关的上下文。通常，检索是基于向量搜索，它计算查询和索引数据之间的语义相似性。因此，大多数检索优化技术都围绕着 embedding 模型：

微调 embedding 模型：定制化 embedding 模型到特定领域上下文，特别是针对具有发展性或罕见术语的领域。例如，BAAI/bge-small-en 是一个高性能 embedding 模型，可以进行微调。

动态 embedding：适应词语使用中的上下文，不同于使用每个词一个向量的静态embedding。例如，OpenAI 的 embeddings-ada-02 是一个复杂的动态embedding模型，捕捉到上下文理解。除了向量搜索之外，还有其他检索技术，如混合搜索(hybrid search)，通常指的是将向量搜索与基于关键词的搜索相结合的概念。如果检索需要精确的关键词匹配，这种检索技术很有益处。

检索后优化

对检索到的上下文内容，我们会遇到如上下文超出窗口限制或上下文引入的噪音，它们会分散对于关键信息的注意力：

Prompt 压缩：通过移除无关并突出重要上下文来减少整体Prompt长度。
重排(Re-ranking)：使用机器学习模型重新计算检索到的上下文的相关性得分。

索引优化示例：句子窗口检索

它将文档分隔成单独的句子，这些句子进行embedding。

对每个句子，它创建一个上下文窗口。如果指定 window_size = 3，那么生成的窗口将包含三个句子，从嵌入句子的前一个句子开始，跨越到之后的一个句子。该窗口将作为元数据存储。在检索期间，将返回与查询最匹配的句子。检索后，你需要通过定义一个 MetadataReplacementPostProcessor 并在 node_postprocessors 列表中使用它，来将句子替换为来自元数据的整个窗口。

检索优化示例：混合搜索

Milvus2.4 版本之前不支持混合搜索（hybrid search），不过在最近发布的2.4版本，这个功能已经支持。

检索后优化示例：重排(Re-ranking)

高级 RAG 中添加一个重排器(Re-ranking)仅需三个简单步骤：

首先，定义一个重排(Re-ranking)模型，使用 Hugging Face 上的 BAAI/bge-reranker-base。
在查询引擎中，将重排模型添加到 node_postprocessors 列表中。
增加查询引擎中的 similarity_top_k 以检索更多的上下文片段，经过重排后可以减少到 top_n。

-------------------------------------------------------------------------------

整个 RAG 的构建流程主要包括：Ingestion -> Indexing -> Retrieval -> Generation

Ingestion
Indexing
在检索过程中，会对 Milvus 进行多种不同组合的向量检索，并且通过不同的 limits 和 filters 条件获取到最有用的结果。
Retrieval

一个典型的 Retrieval 处理步骤包括：
收到用户的问题
用户问题的解析和意图分解
将用户的问题转为向量表示
执行向量搜索
检索到相关的文档
必要时会执行多路检索和重排序，是否不相关
- 基于传统 keyword 的检索(如 bm25, tf-idf 等)
- Dense vector search
- Sparse vector search
- 重排序策略(如 colbert)
文档输入和 prompt 指令
- “You are an AI Chatbot for Milvus”