10、信息检索与问答系统评估:从检索器到阅读器的全面分析

信息检索与问答系统评估:从检索器到阅读器的全面分析

1. 检索器评估

在评估检索器时,我们需要确保其性能良好。常见的评估指标是召回率(recall),它衡量的是检索到的所有相关文档的比例。在这个上下文中,相关简单来说就是答案是否存在于一段文本中。给定一组问题,我们可以通过计算答案在检索器返回的前 k 个文档中出现的次数来计算召回率。

除了召回率,平均精度均值(mean average precision,mAP)也是一个补充指标,它奖励那些能将正确答案排在文档排名靠前位置的检索器。

在 Haystack 中,有两种评估检索器的方法:
- 使用检索器的内置评估函数。这适用于开放域和封闭域的问答,但不适用于像 SubjQA 这样的数据集,因为在 SubjQA 中每个文档都与单个产品配对,我们需要为每个查询按产品 ID 进行过滤。
- 构建一个自定义管道,将检索器与 EvalRetriever 类结合使用。这使得我们能够实现自定义指标和查询流程。

由于我们需要评估每个产品的召回率,然后对所有产品进行汇总,所以我们选择第二种方法。管道图中的每个节点代表一个类,该类通过 run 函数接收一些输入并产生一些输出:

class PipelineNode: 
    def __init__(self): 
        self.outgoing_edges = 1 

    def run(self, **kwargs): 
        ... 
        return (outputs, "outgoing_edge_name")
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值