RAG评估指标 Recall、MRR、NDCG

核心指标 Recall、MRR、NDCG 解析

1. Recall(召回率)

概念与原理
Recall 衡量模型正确识别正例的能力,定义为 所有真实正例中被正确预测的比例,公式为:
$$\text{Recall} = \frac{TP}{TP + FN}$$
其中,TP(True Positive)为真正例,FN(False Negative)为假反例。
特点

  • 关注“漏检”,适用于对漏检容忍度低的场景(如疾病诊断、安防检测)。
  • 与 Precision(精确率)存在权衡关系,需结合 F1-score 综合评估。

实践与举例

  • 代码示例(基于 sklearn):
     
    from sklearn.metrics import recall_score 
    y_true = [1, 0, 1, 1] # 实际标签 
    y_pred = [1, 0, 0, 1] # 预测标签 
    recall = recall_score(y_true, y_pred) # 输出 0.67(正确预测 2/3 的正例) 
  • 应用场景:目标检测中,若某模型在 100 个行人中正确检测出 80 个,则 Recall=80%。

2. MRR
### RAG 模型评估指标 现代针对RAG模型的评价实践强调三个主要质量分数和四种基本能力,这些共同构成了对RAG模型两个核心目标——检索(retrieval)和生成(generation)的综合评价体系[^1]。 #### 三大质量评分维度 1. **准确性(Accuracy)** 准确性衡量的是模型所生成的回答或摘要是否忠实于原始数据以及查询意图的程度。对于RAG而言,这不仅涉及最终输出的质量,还包括中间检索步骤获取的信息的相关性和精确度。 2. **流畅性(Fluency)** 流畅性关注生成文本的语言表达自然程度及其连贯性。即使信息准确无误,如果表述生硬晦涩,则用户体验会大打折扣。因此,在评估过程中也会考量这一点。 3. **相关性(Relevance)** 此项特别适用于检索部分的表现评判,即从大量文档集合中挑选出来的片段与给定问题之间是否存在紧密联系;同时也要考虑生成内容同上下文环境匹配与否。 #### 四种基础技能评测 - **检索效率(Retrieval Efficiency):** 衡量系统能够多快定位并提取有用资料的能力。 - **多样性(Diversity):** 防止重复冗余现象发生,鼓励不同角度的观点呈现。 - **一致性(Coherence):** 确保整个对话流程逻辑顺畅,前后呼应良好。 - **新颖性(Novelty):** 推动创新思维发展,避免简单复制粘贴已有答案。 通过上述七个方面的全面考察,可以较为公正客观地反映出一个具体实现版本下的RAG架构性能优劣之处。 ```python def evaluate_rag_model(model_output, reference_answers): """ 对RAG模型进行评估 参数: model_output (str or list[str]): 模型产生的输出. reference_answers (list[str]): 参考标准答案列表. 返回: dict: 各项得分汇总表单. """ from rouge_score import rouge_scorer scorer = rouge_scorer.RougeScorer(['rouge1', 'rougeL'], use_stemmer=True) results = { "accuracy": calculate_accuracy(model_output, reference_answers), "fluency": assess_fluency(model_output), "relevance": measure_relevance(model_output, context), "efficiency": time_taken / total_queries, "diversity": check_diversity(output_set), "coherence": score_coherence(conversation_history), "novelty": detect_novel_content(new_text) } return results ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值