概率索引方法的实验评估与分析
1. 实验设置
在实验中,与其他仅采用测试集词汇进行查询的关键词选择标准不同,存在许多关键词未出现在任何测试图像中,我们将这些关键词称为非相关关键词,其余的则为相关关键词。识别非相关关键词具有挑战性,因为根据系统准确性,可能会错误地识别出相似的相关词汇,从而导致精度显著下降。
通常会报告平均精度(mAP)和全局平均精度(gAP)指标,其定义遵循特定公式,插值精度根据相应公式计算。插值精度从实际角度来看是合理的,因为当增加检索到的相关文档百分比时,人们通常会查看更多结果。并且,召回率为 0 时的插值精度是明确定义的,而普通精度则不然。AP 是 R - P 曲线下的面积,大多数实验使用梯形积分来计算该面积,所有 AP 结果通常以百分比形式报告。此外,在一些实验中还会绘制实际的 R - P 曲线,以便更深入地了解相应方法的性能。
该实验协议在大多数实验中统一遵循,但在某些情况下,为了与先前发表的结果进行公平比较,协议的一些细节可能会有所不同。
2. 数据集和查询集
采用了多个数据集,但大多数行级实验仅基于 IAM 语料库。IAM 被认为是手写文本识别(HTR)基准测试的开创性数据集,在关键词搜索(KWS)中也被采用,且比其他数据集(如 George Washington(GW)、Parzival(PAR))更具挑战性。此外,还会在其他更大、更真实(且复杂)的数据集(如 Bentham、Plantas(PLA))上报告结果。Bentham 是一个大型集合,从中为不同目的提出了几个实验数据集,本章实验使用了其中三个:BEN1(为 ICFHR - 2014 HTRtS 竞赛定义)、BEN2(为 ICFHR - 2014
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



