基于维基百科的文档分类与波兰语依赖解析初步探索
基于维基百科的文档分类
文档分类算法的第一步是将文档文本中的单词和短语映射到维基百科(W)页面列表上。之后,计算所有找到的术语(单词和短语)的TF-IDF权重,其中IDF因子是在整个波兰维基百科语料库中计算的。过于罕见(出现在少于5个页面上)或过于频繁(出现在超过50000个维基百科页面上)的术语在算法的后续步骤中会被忽略。剩余的权重会分别对单词和短语进行归一化,以增加短语的影响,因为短语比单个单词携带更精确的语义信息。
第二步是对第一步中获得的页面列表进行消歧,以实现每个术语对应一个维基百科页面的明确映射。在这个阶段,每个术语会被分配一个类别向量。由于页面可能被分配到不同数量的类别,这些向量的长度会有所不同。为避免向量长度的不必要影响,会对每个术语的类别向量进行归一化,使得分配给类别的权重之和等于相关术语的TF-IDF值。
我们通过对各个术语的向量进行求和,并根据各自的权重对求和项进行加权(即进行加权类别投票),来计算文档的类别向量。在将类别标签分配给文档方面,我们进行了两种测试:
1. 最高权重法 :选取权重最高的K个类别,但该方法忽略了排名列表中类别之间的相似性,这是其主要缺点。
2. SPA方法 :在维基百科类别图上应用一步扩散激活(SPA)算法来聚类相似的类别。这种方法倾向于提供更通用的标签,但会牺牲一些更详细的标签。
此外,通过应用SPA算法可以实现结果的多样化,即向用户呈现不同的语义类别供其选择。
实验结果
- 基准数据集
超级会员免费看
订阅专栏 解锁全文
1116

被折叠的 条评论
为什么被折叠?



