RAG系列（四）：系统评估 - 五个主流评估指标详解

最新推荐文章于 2025-09-25 04:25:46 发布

原创最新推荐文章于 2025-09-25 04:25:46 发布 · 1.2k 阅读

27 ·

CC 4.0 BY-SA版权

文章标签：

#人工智能 #LangGraph #LLM #自然语言处理 #RAG #知识库 #大模型应用

引言

我们将 RAG 系统主要分为问题理解、检索召回以及答案生成这三个模块，因此对 RAG 系统的评估也是围绕问题（Question）、检索到的上下文（Retrieved Context）、实际答案（Actual Answer）、参考答案（Reference Answer） 这四个维度开展，通过衡量这四个维度之间的相关性来评估 RAG 系统的有效性。

下面我们对每个指标一一展开讲解。

评估指标

上下文召回率（Context Recall）

衡量检索到的上下文是否覆盖参考答案所需的所有关键信息，避免遗漏关键信息。

取值在 0 到 1 之间，数值越高表示检索到的上下文覆盖越全面。

计算公式：上下文召回率 = 上下文覆盖的关键信息数量 / 参考答案中关键信息总数量。

例如，参考答案需要 5 个关键信息，若检索到的上下文覆盖其中 4 个关键信息，则上下文召回率为 0.8。

提升方法：

1. 问题优化与扩展：
1. 通过 LLM 对原问题进行改写或扩写，生成多个相关问题扩大检索范围；
1. 应用 HyDE（假设性文档嵌入）生成假设性答案作为查询向量，提升上下文召回率。
1. 分块策略优化：
1. 根据文档类型调整分块大小和相邻分块的重叠大小；
1. 为每个文本块添加显式标题或背景，提升语义检索准确性；
1. 结构化文档，如将 PDF 文件先转为 Markdown 文件再进行分块；
1. 使用 LLM 生成主题连贯的文本块，替代传统递归分割，减少上下文断裂问题。
1. 检索策略改进：
1. 混合检索，结合稠密检索（向量搜索）与稀疏检索（如BM25），通过加权融合（如 60% 稠密 + 40% 稀疏）兼顾语义关联与关键词匹配，提升上下文召回率；
1. 动态调整 Top-K 候选文档数量，根据查询复杂度优化检索策略。

上下文相关性（Context Relevance）

衡量检索到的上下文与问题之间的相关性，避免包含无关冗余内容。

取值在 0 到 1 之间，数值越高表示检索到的上下文相关性越高。

计算公式：上下文相关性 = 上下文中与问题相关的片段数量 / 上下文中片段总数量。

例如，检索到的上下文总共有 5 个片段，与问题相关的片段有 4 个，则上下文相关性为 0.8。

提升方法：

1. 问题优化与扩展：
1. 通过 LLM 对原问题进行改写或扩写，生成多个相关问题，覆盖用户意图的不同表达形式；
1. 应用 HyDE（假设性文档嵌入）生成假设性答案作为查询向量，增强问题与上下文的匹配度。
1. 分块策略优化：
1. 根据文档类型调整分块大小和相邻分块的重叠大小；
1. 为每个文本块添加显式标题或背景，提升语义检索准确性；
1. 结构化文档，如将 PDF 文件先转为 Markdown 文件再进行分块；
1. 使用 LLM 生成主题连贯的文本块，替代传统递归分割，减少上下文断裂问题。
1. Embedding 模型优化：
1. 采用更高性能的 Embedding 模型；
1. 通过领域知识库微调 Embedding 模型。
1. 检索策略改进：
1. 混合检索，结合稠密检索（向量搜索）与稀疏检索（如BM25），通过加权融合（如 60% 稠密 + 40% 稀疏）兼顾语义关联与关键词匹配，提升上下文相关性；
1. 检索与重排序结合，先扩大检索范围（如Top 100）实现最大化召回，然后使用重排序模型筛选 Top 5-10，兼顾效率与相关性；
1. 引入知识图谱（Knowledge Graph）增强检索，通过实体链接和路径扩展挖掘深层语义关系，解决传统 RAG 对复杂关系推理的不足。

答案忠实度（Faithfulness）

衡量实际答案是否严格基于检索到的上下文，避免幻觉。

取值在 0 到 1 之间，数值越高表示实际答案越严格基于检索到的上下文。

计算公式：答案忠实度 = 上下文能够推断出事实的数量 / 答案拆解出的事实总数量。

例如，实际答案拆解出 5 个事实，若检索到的上下文覆盖其中 4 个事实，则答案忠实度为 0.8。

提升方法：

1. 优化检索阶段的精准性，提高上下文召相关性；
1. 生成阶段通过 Prompt 设计约束 LLM 严格按上下文生成答案。

答案相关性（Answer Relevance）

衡量实际答案是否直接完整回答用户问题，排除冗余或跑题。

取值在 0 到 1 之间，数值越高表示实际答案更直接完整回答用户问题。

计算公式：答案相关性 = 与实际问题相关的模拟问题数量 / 实际答案推导出的模拟问题总数量。

例如，实际答案推导出 5 个模拟问题，若其中 4 个与实际问题相关，则答案相关性为 0.8。

提升方法：

1. 优化检索阶段的精准性与全面性，提高上下文召回率和相关性；
1. 生成阶段通过 Prompt 设计约束 LLM 直接完整回答用户问题。

答案正确性（Answer Correctness）

衡量实际答案的准确性，需与参考答案对比。

取值在 0 到 1 之间，数值越高表示实际答案与参考答案匹配度越高，准确性也就越高。

计算公式：答案准确性 = 实际答案覆盖的关键信息数量 / 参考答案中关键信息总数量。

例如，参考答案需要 5 个关键信息，若实际答案覆盖其中 4 个关键信息，则答案正确性为 0.8。

提升方法：

1. 优化检索阶段的精准性与全面性，提高上下文召回率和相关性；
1. 生成阶段通过 Prompt 设计约束 LLM 直接完整回答用户问题。

评估系统

RAG 系统评估方法主要有用户反馈（User Feedback）、人工标注（Human Annotations）、LLM 评估（LLM-as-judge）。

鉴于用户反馈需要生产环境以及人工评估耗时耗力等原因，通过 LLM 来对 RAG 系统进行评估是目前的主流和发展方向。

目前主流的 RAG 评估系统有：RAGAS[1]、Trulens[2]、LangSmith[3]、LlamaIndex[4]等，其核心原理还是使用标注良好的数据集和 LLM 来完成自动化评估，大家可根据自己的需求选用。

•RAGAS：

•**定位：**专注 RAG 系统评估，提供自动化、无参考标签的评估框架，评估指标覆盖全面；
•**覆盖指标：**上下文相关性、上下文召回率、答案忠实度、答案相关性、答案正确性等；
•**支持开发语言：**Python。

•Trulens

•**定位：**提供 RAG Triad 评估模型（检索质量、生成准确性、对齐度），但指标较 RAGAS 粗略，属于 RAGAS 的子集；
•**覆盖指标：**上下文相关性、答案忠实度、答案相关性等；
•**支持开发语言：**Python。

•LangSmith：

•**定位：**LangChain 生态的核心监控与调试工具，覆盖 LLM 应用全生命周期，也可与 RAGAS 联合评估 RAG 系统；
•**覆盖指标：**上下文相关性、答案忠实度、答案相关性、答案正确性等；
•**支持开发语言：**Python、TypeScript。

•LlamaIndex：

•定位： 一个专注于构建 RAG 应用的框架，提供数据索引、检索与生成的完整流程支持。支持部分指标评估，也可与 RAGAS 联合评估 RAG 系统；
•覆盖指标： 答案忠实度、答案相关性、答案正确性等；
•支持开发语言： Python、TypeScript。

结语

通过本文我们了解了 RAG 系统的评估指标、评估方法以及主流的评估系统，后面我们将基于 LLM-as-judge 自己实现一套自动化评估系统，然后通过该评估系统评估我们搭建好的基础版 RAG 系统，然后以此为基准，学习不同的优化方法以及优化后的基础版 RAG 系统的提升效果。

大模型算是目前当之无愧最火的一个方向了，算是新时代的风口！有小伙伴觉得，作为新领域、新方向人才需求必然相当大，与之相应的人才缺乏、人才竞争自然也会更少，那转行去做大模型是不是一个更好的选择呢？是不是更好就业呢？是不是就暂时能抵抗35岁中年危机呢？

答案当然是这样，大模型必然是新风口！

那如何学习大模型？

由于新岗位的生产效率，要优于被取代岗位的生产效率，所以实际上整个社会的生产效率是提升的。但是具体到个人，只能说是：

最先掌握AI的人，将会比较晚掌握AI的人有竞争优势。
这句话，放在计算机、互联网、移动互联网的开局时期，都是一样的道理。

但现在很多想入行大模型的人苦于现在网上的大模型老课程老教材，学也不是不学也不是，基于此我用做产品的心态来打磨这份大模型教程，深挖痛点并持续修改了近100余次后，终于把整个AI大模型的学习路线完善出来！

在这里插入图片描述

在这个版本当中：

您只需要听我讲，跟着我做即可，为了让学习的道路变得更简单，这份大模型路线+学习教程已经给大家整理并打包分享出来, 😝有需要的小伙伴，可以 扫描下方二维码领取🆓↓↓↓

👉优快云大礼包🎁：全网最全《LLM大模型学习资源包》免费分享（安全咨料，放心领取）👈

一、大模型经典书籍（免费分享）

AI大模型已经成为了当今科技领域的一大热点，那以下这些大模型书籍就是非常不错的学习资源。

在这里插入图片描述

二、640套大模型报告（免费分享）

这套包含640份报告的合集，涵盖了大模型的理论研究、技术实现、行业应用等多个方面。无论您是科研人员、工程师，还是对AI大模型感兴趣的爱好者，这套报告合集都将为您提供宝贵的信息和启示。(几乎涵盖所有行业)
在这里插入图片描述

三、大模型系列视频教程（免费分享）

在这里插入图片描述

四、2025最新大模型学习路线（免费分享）

我们把学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L1阶段：了解大模型的基础知识，以及大模型在各个行业的应用和分析，学习理解大模型的核心原理、关键技术以及大模型应用场景。

L2阶段：攻坚篇丨RAG开发实战工坊

L2阶段：AI大模型RAG应用开发工程，主要学习RAG检索增强生成：包括Naive RAG、Advanced-RAG以及RAG性能评估，还有GraphRAG在内的多个RAG热门项目的分析。

L3阶段：跃迁篇丨Agent智能体架构设计

L3阶段：大模型Agent应用架构进阶实现，主要学习LangChain、 LIamaIndex框架，也会学习到AutoGPT、 MetaGPT等多Agent系统，打造Agent智能体。

L4阶段：精进篇丨模型微调与私有化部署

L4阶段：大模型的微调和私有化部署，更加深入的探讨Transformer架构，学习大模型的微调技术，利用DeepSpeed、Lamam Factory等工具快速进行模型微调，并通过Ollama、vLLM等推理部署框架，实现模型的快速部署。

L5阶段：专题集丨特训篇【录播课】

全套的AI大模型学习资源已经整理打包，有需要的小伙伴可以微信扫描下方二维码，免费领取

👉优快云大礼包🎁：全网最全《LLM大模型学习资源包》免费分享（安全资料，放心领取）👈

RAG系列（四）：系统评估 - 五个主流评估指标详解

引言

评估指标

上下文召回率（Context Recall）

上下文相关性（Context Relevance）

答案忠实度（Faithfulness）

答案相关性（Answer Relevance）

答案正确性（Answer Correctness）

评估系统

结语

那如何学习大模型 ？

在这个版本当中：

一、大模型经典书籍（免费分享）

二、640套大模型报告（免费分享）

三、大模型系列视频教程（免费分享）

四、2025最新大模型学习路线（免费分享）

我们把学习路线分成L1到L4四个阶段，一步步带你从入门到进阶，从理论到实战。

L1阶段:启航篇丨极速破界AI新时代

L2阶段：攻坚篇丨RAG开发实战工坊

L3阶段：跃迁篇丨Agent智能体架构设计

L4阶段：精进篇丨模型微调与私有化部署

L5阶段：专题集丨特训篇 【录播课】

那如何学习大模型？

L5阶段：专题集丨特训篇【录播课】