理论篇:RAG评估指标,检索指标与生成指标①


本系列阅读:
理论篇:RAG评估指标,检索指标与生成指标①
实践篇:利用ragas在自己RAG上实现LLM评估②

RAG评估

如果RAG没有系统性的评估,你永远不知道:

  • 你的系统是否是最优的
  • 你的修改是否真的带来了改进
  • 问题到底出在检索环节还是生成环节

RAG系统的核心流程可以简化为检索组件答案生成组件,评估RAG即对两部分组件效果进行评估。

若检索组件效果不好,我们优化方案:rank模型+混合检索
若答案生成效果不好,我们的优化方案是:选更大的大模型

检索指标:评估"找到正确信息"的能力

在RAG的检索评估中,我们基本上是在做一个二分类:文档是否与查询相关。

实际相关 实际不相关
被系统检索 真正例(TP) 假正例(FP)
未被检索 假负例(FN) 真负例(TN)

检索组件负责从知识库中找到与用户问题相关的信息。以下是我常用的几个指标:

1. 精确度(Precision)—常用

精确度(Precision):检索到的文档中有多大比例是真正相关的?
公式: P r e c i s i o n = 真正例 ( T P ) 真正例 ( T P ) + 假正例 ( F P ) Precision = \frac{真正例(TP)}{真正例(TP) + 假正例(FP)} Precision=真正例(TP)+假正例(FP)真正例(TP)

做医疗诊断工具会特别关注这个指标,因为误报(错误信息)可能导致严重后果。

2. 召回率(Recall)—常用

召回率(Recall):成功检索到了多大比例的相关文档?
公式: R e c a l l = 真正例 ( T P ) 真正例 ( T P ) + 假负例 ( F N ) Recall = \frac{真正例(TP)}{真正例(TP) + 假负例(FN)} Recall=真正例(TP)+假负例(FN)真正例(TP)

做法律研究工具时,这个指标尤其重要。漏掉一个关键判例可能会影响整个案件结果!

3. 命中率(Hit Rate)

命中率(Hit Rate):有多大比例的查询在前几个结果中至少检索到了一个相关文档?
公式: H i t R a t e @ K = 至少有一个相关文档出现在前 K 个结果中的查询数量 查询总数 HitRate@K = \frac{至少有一个相关文档出现在前K个结果中的查询数量}{查询总数} HitRate@K=查询总数至少有一个相关文档出现在前K个结果中的查询数量

4. 平均倒数排名(MRR, Mean Reciprocal Rank)

平均倒数排名(MRR, Mean Reciprocal Rank):第一个相关文档在搜索结果中平均排在第几位?
公式: M R R = 1 ∣ Q ∣ ∑ i = 1 ∣ Q ∣ 1 r a n k i MRR = \frac{1}{|Q|} \sum_{i=1}^{|Q|} \frac{1}{rank_i} MRR=Q1

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

非常大模型

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值