理论篇：RAG评估指标，检索指标与生成指标①_ragas中的上下文精确度和上下文召回率-优快云博客

RAG评估

如果RAG没有系统性的评估，你永远不知道：

RAG系统的核心流程可以简化为检索组件和答案生成组件，评估RAG即对两部分组件效果进行评估。

若检索组件效果不好，我们优化方案：rank模型+混合检索
若答案生成效果不好，我们的优化方案是：选更大的大模型

在RAG的检索评估中，我们基本上是在做一个二分类：文档是否与查询相关。

	实际相关	实际不相关
被系统检索	真正例(TP)	假正例(FP)
未被检索	假负例(FN)	真负例(TN)

检索组件负责从知识库中找到与用户问题相关的信息。以下是我常用的几个指标：

精确度（Precision）：检索到的文档中有多大比例是真正相关的？
公式： $\frac{真正例(TP)}{真正例(TP) + 假正例(FP)}$

做医疗诊断工具会特别关注这个指标，因为误报（错误信息）可能导致严重后果。

召回率（Recall）：成功检索到了多大比例的相关文档？
公式： $\frac{真正例(TP)}{真正例(TP) + 假负例(FN)}$

做法律研究工具时，这个指标尤其重要。漏掉一个关键判例可能会影响整个案件结果！

命中率（Hit Rate）：有多大比例的查询在前几个结果中至少检索到了一个相关文档？
公式： $\frac{至少有一个相关文档出现在前K个结果中的查询数量}{查询总数}$

平均倒数排名（MRR, Mean Reciprocal Rank）：第一个相关文档在搜索结果中平均排在第几位？
公式： $\frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{rank_i}$