【RAG专题】一文看懂文档召回率

在RAG(检索增强生成,Retrieval-Augmented Generation)系统中,文档召回率(Document Recall Rate) 是衡量检索模块性能的核心指标之一,用于评估系统从文档库中成功找回与用户查询相关的所有文档的能力。

具体含义

召回率(Recall)的计算公式为:
召回率 = 检索到的相关文档数量 / 文档库中所有相关文档的总数

  • 分子:系统实际检索出来的、且与查询真正相关的文档数量。
  • 分母:文档库中所有与该查询相关的文档总数(无论是否被检索到)。

举例说明

假设用户查询“人工智能在医疗领域的应用”,文档库中共有10篇相关文档:

  • 若系统检索到其中8篇,则召回率为8/10=80%;
  • 若仅检索到3篇,则召回率为30%。

核心意义

  • 召回率高:说明系统能“不漏掉”大部分相关文档,减少因遗漏关键信息导致的回答错误。
  • 召回率低:意味着很多相关文档未被检索到,可能导致生成的回答片面或不准确。

在RAG中,召回率通常与精确率(Precision) 配合使用(精确率衡量检索结果中“无关文档”的占比)。理想状态是两者都高,但实际中可能需要权衡(例如,提高召回率可能引入更多无关文档,降低精确率)。

延伸:为何重要?

RAG的核心逻辑是“先检索、再生成”,如果检索阶段漏掉了关键文档(召回率低),生成模块即使再强大,也会因缺乏必要信息而产出低质量回答。因此,召回率是优化RAG系统的关键指标之一,常见的提升手段包括优化检索算法(如向量检索、关键词检索结合)、调整文档拆分策略、改进embedding模型等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值