18、概率索引方法的实验评估与分析-优快云博客

本文链接：https://blog.youkuaiyun.com/milk5/article/details/152775772

概率索引方法的实验评估与分析

1. 实验设置

在实验中，与其他仅采用测试集词汇进行查询的关键词选择标准不同，存在许多关键词未出现在任何测试图像中，我们将这些关键词称为非相关关键词，其余的则为相关关键词。识别非相关关键词具有挑战性，因为根据系统准确性，可能会错误地识别出相似的相关词汇，从而导致精度显著下降。

通常会报告平均精度（mAP）和全局平均精度（gAP）指标，其定义遵循特定公式，插值精度根据相应公式计算。插值精度从实际角度来看是合理的，因为当增加检索到的相关文档百分比时，人们通常会查看更多结果。并且，召回率为 0 时的插值精度是明确定义的，而普通精度则不然。AP 是 R - P 曲线下的面积，大多数实验使用梯形积分来计算该面积，所有 AP 结果通常以百分比形式报告。此外，在一些实验中还会绘制实际的 R - P 曲线，以便更深入地了解相应方法的性能。

该实验协议在大多数实验中统一遵循，但在某些情况下，为了与先前发表的结果进行公平比较，协议的一些细节可能会有所不同。

2. 数据集和查询集

采用了多个数据集，但大多数行级实验仅基于 IAM 语料库。IAM 被认为是手写文本识别（HTR）基准测试的开创性数据集，在关键词搜索（KWS）中也被采用，且比其他数据集（如 George Washington（GW）、Parzival（PAR））更具挑战性。此外，还会在其他更大、更真实（且复杂）的数据集（如 Bentham、Plantas（PLA））上报告结果。Bentham 是一个大型集合，从中为不同目的提出了几个实验数据集，本章实验使用了其中三个：BEN1（为 ICFHR - 2014 HTRtS 竞赛定义）、BEN2（为 ICFHR - 2014