文档分割结果的质量评估
1. 引言
在文档分析系统中,质量评估(或基准测试)的重要性日益增加。随着文档分析系统质量的不断提升,进一步改进变得更加困难。此外,系统的复杂性也在增加,这导致即使是修改一个模块的参数也可能引发其他模块的不可预测行为。面对越来越多的现成算法和新应用领域,找到合适的配置变得相当困难。因此,为了进一步改进,需要进行详细的定性和定量失败分析。
在进行评估时,可能存在两个不同的目标:为用户进行的基准测试和为系统开发者进行的详细失败分析。对于用户来说,只有最终结果(例如,OCR系统中的ASCII文本或文档分类系统的类别集)是令人感兴趣的——没有动机去查看内部细节。而对于系统开发者而言,需要进行详细失败分析。这不仅需要关注最终结果,还需要关注中间结果,即特定模块的输出。模块的输出必须是可访问的,并且需要与相应的真实标签进行比较。
2. 评估方法的选择
评估一个模块有几种可能性,本文采用的方式是经验性的,而非分析性的。这意味着我们使用模块产生的结果来进行评估。所考虑的模块是一个黑盒——我们不想进行算法分析。模块的结果与理想结果(真实标签)进行比较。这种方法能够处理产生完整分割(划分)的算法和仅提取感兴趣对象(提取)的算法。