检索增强生成(RAG)作为大型语言模型(LLMs)最受欢迎的应用之一,其核心在于将检索器与生成器相结合:检索器通过嵌入模型从向量数据库中获取相关上下文,生成器则基于检索到的信息生成回答。在RAG系统中,检索器的性能往往比生成器更为关键——即便生成器的能力中等,只要能获取到准确的信息,也能产出令人满意的结果。因此,评估并选择合适的嵌入模型(即检索器),对RAG系统的整体表现至关重要。本文将详细介绍如何基于Ground Truth(基准真值)评估嵌入模型,并找到最适合RAG系统的方案。
一、Ground Truth:评估的基础
在AI和机器学习系统的评估中,Ground Truth是公认的“黄金标准”。尽管手动创建Ground Truth耗时且成本高,但它能提供关于数据、文档、文档分块方式以及用户可能提出的问题类型等深度洞察,是一项值得的投资。对于RAG系统的检索器评估而言,构建高质量的Ground Truth是首要步骤。
1.1 Ground Truth的构建原则
构建Ground Truth的核心目标是让每个问题在数据库中都有唯一对应的相关分块,以便直观评估嵌入模型是否能为特定问题检索到正确的分块。具体步骤如下:
- 筛选独特信息分块
:从已分块的知识文档中,识别包含特定、