RAG知识库性能的科学评定

最新推荐文章于 2025-10-13 10:42:57 发布

原创最新推荐文章于 2025-10-13 10:42:57 发布 · 1.7k 阅读

CC 4.0 BY-SA版权

文章标签：

172 篇文章

订阅专栏

153 篇文章

订阅专栏

在RAG（检索增强生成）系统中，科学的衡量指标需要从检索质量、生成质量和系统性能三个维度综合评估。

在这里插入图片描述

召回率（Recall）
- 定义：检索到的相关文档数占知识库中所有相关文档的比例，反映检索的全面性。
- 公式：Recall = TP / (TP + FN)
- 优化场景：法律咨询、医疗诊断等容错率低的领域需优先提升召回率，避免遗漏关键信息。
精确率（Precision）
- 定义：检索到的文档中真正相关的比例，衡量检索结果的准确性。
- 变体：Precision@k（前k个结果中的相关文档占比），适用于需快速响应的场景（如客服机器人）。
平均倒数排名（MRR）
- 定义：首个相关文档排名的倒数均值，评估检索系统快速定位关键信息的能力。
- 适用性：适用于需优先展示最佳结果的场景（如搜索引擎）。
归一化折扣累积增益（NDCG）
- 定义：考虑文档排序的加权评分，衡量检索结果的相关性排序合理性。

答案忠实度（Answer Faithfulness）
- 定义：生成答案与检索上下文的事实一致性，避免“幻觉”或编造内容。
- 评估方法：对比答案中的事实与上下文是否存在冲突。
答案相关度（Answer Relevance）
- 定义：生成答案与用户查询的语义匹配程度，确保回答不偏离原始问题。
上下文相关度（Context Relevance）
- 定义：检索到的上下文与用户问题的关联性，直接影响生成答案的准确性。

RAGAS框架
- 包含4项核心指标：上下文相关性（Context Relevancy）、上下文召回率（Context Recall）、答案忠实度（Faithfulness）、答案相关度（Answer Relevancy），支持自动化评估。
TruLens
- 通过反馈函数量化评估生成答案的上下文相关性、忠实性和答案相关性，支持实时监控。
ARES
- 结合人工标注与LLM自动评分，评估检索和生成组件的协同效率。