检索增强生成(RAG)的局限性

最新推荐文章于 2025-09-28 14:14:17 发布

原创

最新推荐文章于 2025-09-28 14:14:17 发布 · 926 阅读

29 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #prompt #语言模型

1、RAG的局限性

随着行业对RAG（Retrieval-Augmented Generation）应用的深入使用，我们可能会发现尽管该系统在某些场景下能够提供有效的帮助，但仍然存在诸多需要改进的地方。这些问题不仅影响了用户体验，还可能削弱用户对系统的信任度。以下是几个典型的问题及其背后的原因分析：

1.1. 问题表述模糊或抽象

当用户提出的问题较为抽象或概念模糊时，即使是最先进的大语言模型也可能无法准确理解用户的意图。例如，如果一位用户询问“兰州拉面去哪吃？”而其实际意图是寻找附近的兰州拉面店，那么，如果知识库中关于“兰州”和“拉面”的相关信息主要集中在位于兰州市内的餐馆地址上，系统很可能会错误地建议用户购买前往兰州的机票或火车票。这种情况下，为了提高理解和响应的质量，一个有效的方法是对用户提问进行重构，使其更加具体明确。通过引导用户更清晰地表达需求，可以显著提升系统的理解能力和回复准确性。

1.2. 知识库检索失败

另一个常见问题是知识库未能检索到与用户查询相关的信息(Chunks)。这可能是由于数据预处理不当、索引机制设计不合理或是检索算法参数设置不恰当等原因造成的。以采用“K个最相似文档块”策略为例，若设定的K值过小，则很可能导致即便有相关内容存在于数据库中也无法被有效利用。设想这样一个情景：作为旅游指南的知识库内存储了大量的关于兰州拉面制作方法、历史渊源以及地方特色产品的信息，而对于周边餐饮地点的具体位置描述却相对较少。当游客试图了解如何到达最近的兰州拉面店时，系统很可能只会返回有关面条制作工艺等方面的资料，而忽略了最关键的位置指引信息。因此，优化知识库结构并调整检索逻辑成为了改善此类问题的关键所在。

1.3. 缺乏答案验证机制

即使是在理想条件下——即系统成功解析了用户意图并且正确识别出了相关信息——最终生成的答案仍可能存在误导性。比如，在上述例子中，假设系统已经找到了距离当前位置最近的两家兰州拉面馆，并给出指示：“向北走200米就到了”。虽然这一回答表面上看起来是正确的，但实际上它并未考虑到具体的地理环境因素。假如目标地点位于一片湖泊之后，那么直接朝北行走显然是不可行的；正确的路径应该是先向东行走一段距离，再绕过障碍物继续前进。由此可见，单纯依靠现有信息生成答案而不对其进行进一步校验的做法显然不够严谨。为此，引入一套完善的答案验证机制显得尤为重要，它可以确保输出内容不仅符合逻辑而且具备实用性。

综上所述，要使RAG应用真正发挥出应有的效能，就需要针对以上提到的各种挑战采取相应措施加以解决。通过对用户输入的精细化处理、加强知识库建设和管理以及建立健全的答案审核流程，我们可以逐步克服这些难题，从而为用户提供更加优质的服务体验。我们会发现许多改进标准 RAG 框架的方法，下面我们将一起了解这些改进思路。

2、优化RAG的应用效果

为了持续改进我们的 RAG 应用，首要任务应当是构建一套严谨的评测指标体系，并邀请业务领域专家作为评测方共同参与评测工作，我们可以设置与我们业务相关的多种问题场景，系统性地检查一个RAG系统反应快不快，回答准不准，有没有理解用户问题的意图等方面。通过科学全面的评测，我们可以了解到系统在哪些地方做得好，哪些地方需要改进，从而帮助开发者让RAG系统更好的服务于业务需求。

RAG系统一般包括检索和生成两个模块，我们做评测时就可以从这两个模块分别入手建立评价标准和实施方法，当然你也可以用最终效果为标准，建立端到端的评测。在评测指标设计上，我们主要考察检索模块的准确性，如准确率、召回率、F1值等等；在生成模块，我们主要考察生成答案的价值，如相关性、真实性等等。

我们可以引入业界认可的一些通用评估策略，比如，你可以参考Ragas提及的评测矩阵指南，你也可以建立一些自己的评测指标，这些评测方法将会有助于你量化和改进每一个子模块的表现。下面我们主要从建立索引、检索、生成三个环节入手进行优化。

2.1 建立索引(提升索引准确率)

优化文本解析过程

在构建知识库的时候，我们首先需要正确的从文档中提取有效语料。因此，优化文本解析的过程往往对提升RAG的性能有很大帮助。例如，从网页中提取有效信息时，我们需要判断哪些部分应该被去掉（比如页眉页脚标签），哪些部分应该被保留（比如属于网页内容的表格标签）。

优化chunk切分模式

Chunk就是数据或信息的一个小片段或者区块。当你在处理大量的文本、数据或知识时，如果你一次性全部交给大模型来阅读和处理，效率是非常低的。所以，我们把它们切分成更小、更易管理的部分，这些部分就是chunk。每个chunk都包含了一些有用的信息，这样当系统根据用户的问题寻找某个知识时，它可以迅速定位到与答案相关信息的chunk，而不是在整个数据库中盲目搜索。因此，通过精心设计的chunk切分策略，系统能够更高效地检索信息，就像图书馆里按照类别和标签整理书籍一样，使得查找特定内容变得容易。优化chunk切分模式，就能加速信息检索、提升回答质量和生成效率。具体方法有很多：

利用领域知识：针对特定领域的文档，利用领域专有知识进行更精准的切分。例如，在法律文档中识别段落编号、条款作为切分依据。
基于固定大小切分：比如默认采用128个词或512个词切分为一个chunk，可以快速实现文本分块。缺点是忽略了语义和上下文完整性。
上下文感知：在切分时考虑前后文关系，避免信息断裂。可以通过保持特定句对或短语相邻，或使用更复杂的算法识别并保留语义完整性。最简单的做法是切分时保留前一句和后一句话。你也可以使用自然语言处理技术识别语义单元，如通过句子相似度计算、主题模型（如L