文档类型分类与XML检索中的摘要使用研究
文档类型分类实验
在文档类型分类的研究中,进行了两个相关实验,实验假设PDF文档可分为商业报告、会议记录、产品/应用描述、科研文章这四类。虽然这一假设存在局限性,但研究认为在有限数据集上实现高性能,并结合准确缩小待标记候选范围的方法,有望达成最终目标。
第一个实验步骤
- 选取属于上述四种类型的所有PDF文档(当前标记数据中有70份文档)。
- 从每种类型中随机选取三分之一的文档作为训练数据(共27份文档),其余作为测试数据(43份文档)。
- 在选定的训练数据上训练图像分类器和基于单词级别的语言模型分类器。
- 检查实验结果。
第二个实验步骤
- 使用与第一个实验相同的训练和测试数据。
- 将文档类型分为两组,第一组包含商业报告和会议记录,第二组包含科研文章和产品描述。
- 训练图像分类器以区分这两组,并使用它将测试数据标记为第一组或第二组的文档。
- 训练两个语言模型分类器:分类器I用于区分商业报告和会议记录,分类器II用于标记文档为科研文章或产品描述。
- 对标记为第一组的测试文档使用分类器I进行标记,对标记为第二组的测试文档使用分类器II进行标记。
- 检查实验结果。
分组是通过选择使图像分类器训练准确率最高的分区来确定的。
实验结果评估使用了分类任务中常用的三个指标:准确率、精确率和召回率。相关定义如下:
设N为测试数据中的文档
超级会员免费看
订阅专栏 解锁全文
6

被折叠的 条评论
为什么被折叠?



