RAG 评价指标
RAG 系统的评价指标主要关注以下几个方面:
-
检索质量 (Retrieval Quality): 衡量检索到的文档与用户查询的相关性。
- Precision@K: 在检索到的前 K 个文档中,有多少是相关的。
- Recall@K: 在所有相关的文档中,有多少被检索到了前 K 个文档中。
- F1-Score@K: Precision@K 和 Recall@K 的调和平均数。
- Mean Reciprocal Rank (MRR): 对所有查询,第一个相关文档排名的倒数的平均值。
- Normalized Discounted Cumulative Gain (NDCG): 考虑了相关文档的排名位置,排名越靠前的相关文档贡献越大。
- Context Relevance: 衡量检索到的上下文与查询的相关性。可以使用 LLM 来评估上下文与查询的相关程度。
-
生成质量 (Generation Quality): 衡量 LLM 生成的答案的质量。
- Faithfulness/Groundedness: