文章目录
本系列阅读:
理论篇:RAG评估指标,检索指标与生成指标①
实践篇:利用ragas在自己RAG上实现LLM评估②
RAG评估
如果RAG没有系统性的评估,你永远不知道:
- 你的系统是否是最优的
- 你的修改是否真的带来了改进
- 问题到底出在检索环节还是生成环节
RAG系统的核心流程可以简化为检索组件和答案生成组件,评估RAG即对两部分组件效果进行评估。
若检索组件效果不好,我们优化方案:rank模型+混合检索
若答案生成效果不好,我们的优化方案是:选更大的大模型
检索指标:评估"找到正确信息"的能力
在RAG的检索评估中,我们基本上是在做一个二分类:文档是否与查询相关。
| 实际相关 | 实际不相关 | |
|---|---|---|
| 被系统检索 | 真正例(TP) | 假正例(FP) |
| 未被检索 | 假负例(FN) | 真负例(TN) |
检索组件负责从知识库中找到与用户问题相关的信息。以下是我常用的几个指标:
1. 精确度(Precision)—常用
精确度(Precision):检索到的文档中有多大比例是真正相关的?
公式: P r e c i s i o n = 真正例 ( T P ) 真正例 ( T P ) + 假正例 ( F P ) Precision = \frac{真正例(TP)}{真正例(TP) + 假正例(FP)} Precision=真正例(TP)+假正例(FP)真正例(TP)
做医疗诊断工具会特别关注这个指标,因为误报(错误信息)可能导致严重后果。
2. 召回率(Recall)—常用
召回率(Recall):成功检索到了多大比例的相关文档?
公式: R e c a l l = 真正例 ( T P ) 真正例 ( T P ) + 假负例 ( F N ) Recall = \frac{真正例(TP)}{真正例(TP) + 假负例(FN)} Recall=真正例(TP)+假负例(FN)真正例(TP)
做法律研究工具时,这个指标尤其重要。漏掉一个关键判例可能会影响整个案件结果!
3. 命中率(Hit Rate)
命中率(Hit Rate):有多大比例的查询在前几个结果中至少检索到了一个相关文档?
公式: H i t R a t e @ K = 至少有一个相关文档出现在前 K 个结果中的查询数量 查询总数 HitRate@K = \frac{至少有一个相关文档出现在前K个结果中的查询数量}{查询总数} HitRate@K=查询总数至少有一个相关文档出现在前K个结果中的查询数量
4. 平均倒数排名(MRR, Mean Reciprocal Rank)
平均倒数排名(MRR, Mean Reciprocal Rank):第一个相关文档在搜索结果中平均排在第几位?
公式: M R R = 1 ∣ Q ∣ ∑ i = 1 ∣ Q ∣ 1 r a n k i MRR = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{rank_i} MRR=∣Q∣1

最低0.47元/天 解锁文章

被折叠的 条评论
为什么被折叠?



