缺失或不确定真实标签下的精确率和召回率计算及半自动真值标注框架
1. 缺失或不确定真实标签下的精确率和召回率计算
在某些情况下,可能没有正式确定的真实标签,此时需要一种方法来计算精确率和召回率。研究表明,这种无真实标签的测量方法与基于真实标签的精确率和召回率测量是一致的,不过显然它无法推断出真实标签,也不能达到与有真实标签时完全相同的性能。
1.1 多数投票与分类器融合
在多数投票的情况下,分类器融合的目标通常是获得一个比单个贡献者表现更好的新分类器。但在本研究中,目的只是对不同分类器进行排名。然而,有人可能会认为,通过多数投票获得的分类器可以为前面章节中提出的概率精确率和召回率值的可靠性提供理论边界,不过这背后的数学原理还需要进一步发展和评估。
1.2 模型扩展
- 方法加权 :之前开发的概率模型假设所有数据和所有方法都具有统一的置信度值,即没有一种方法比其他方法更可靠,并且所有数据要么属于查询结果,要么不属于。但实际上,该模型能够整合真实标签,甚至可以处理不确定的真实标签(例如来自可靠但未完全验证的人工注释)。可以将真实标签视为某个“神谕”系统 (S_O) 的结果,文档 (\delta_i) 属于 (\Delta^+ {\star}) 的概率公式(10)需要稍作修改:
(P(\delta_i) = \sum {k=1…s,\perp,\top,O} S_k(\delta_i) \kappa_{S_k}) (公式 13)
其中,(\kappa_{S_k}) 是与系统 (S_k) 相关的置信度值,且 (\sum_{k} \kappa_{S_k}
超级会员免费看
订阅专栏 解锁全文
1495

被折叠的 条评论
为什么被折叠?



