RAG高阶技巧---窗口上下文检索

最新推荐文章于 2025-06-21 15:26:19 发布

原创最新推荐文章于 2025-06-21 15:26:19 发布 · 1k 阅读

CC 4.0 BY-SA版权

文章标签：

文章详细描述了RAG模型的检索流程，包括文档加载、拆分、向量化和检索，以及在拆分与检索中遇到的问题。提出改进策略，如使用预检索和后检索，以及根据位置标识提取上下文信息以提升回答质量。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

RAG（Retrieval-Augmented Generation）模型的检索流程主要包括以下步骤：

加载文档：此步骤涉及将不同格式的文件转化为可处理的文档形式，例如将PDF文件转换为文本，或将表格数据转化为键值对。
拆分文档：在此步骤中，文档被分割成更小的单元，以便于存储和检索。例如，将“我是kxc。我喜欢唱跳、rap和篮球。”拆分为“我是kxc。”和“我喜欢唱跳、rap和篮球。”两个数据块。
嵌入表示：文档被转换为向量形式，这通常通过BERT或TF-IDF等模型完成。
存储向量：向量化后的数据块被存入向量数据库中。
检索：根据输入的问题和文档向量，计算它们之间的相似度，然后根据相似度排序，选择最相关的文档作为检索结果。余弦相似度或点积是常用的相似度度量方法。
生成回答：最后，使用检索到的文档作为生成模型的输入，根据问题生成回答。GPT-3或T5等模型常用于这一步骤。

虽然基础RAG的检索流程相对简单，但在拆分（split）和检索（retrive）步骤中存在一些问题，这些问题可能会影响RAG的检索效果，导致生成的回答不准确或不完整。

如果拆分的数据块太大，那么在检索时，同一块中可能包含大量与问题不相关的内容，从而影响检索的准确性。例如，如果将维基百科的一篇文章作为一个整体进行检索，那么由于文章可能涉及多个主题和细节，与问题的相关性可能会降低。在这种情况下，生成模型可能会提取出一些无关或错误的信息，从而降低回答的质量。
另一方面，如果拆分的数据块太小，虽然可以提高检索的匹配度，但在生成回答时，由于缺乏足够的上下文信息，可能导致回答不准确。例如，如果将维基百科的一篇文章拆分为多个句子进行检索，那么每个句子可能只包含部分信息，与问题的相关性较高。在这种情况下，生成模型可能会提取出一些有用的信息，但可能会忽略重要的上下文信息，从而影响回答的完整性。