基于维基百科的波兰语文档分类方法
1. 引言
如今,自动文本分类技术备受关注,它在文本检索、本体扩展、查询重写、邮件和备忘录整理、网页分类等众多领域都有广泛应用。文本分类是指为单个文档分配一个或多个标签(类别),可将其视为文本分类的特殊情况或聚类任务。
传统的文本分类方法通常需要一个结构良好的分类体系和大量已分类的文本语料库。维基百科(Wikipedia,简称W)是一个不错的选择,它已成功应用于英语文档的分类。然而,波兰语维基百科尚未广泛用于文本分类,这是因为波兰语具有很强的词形变化,在文本匹配和短语识别时,几乎所有的单词和短语都需要重新表述。本文提出的方法仅基于维基百科的图结构进行分类,除了页面标题外,不使用其他文本内容,从而避免了大多数与文本相关的质量问题。
2. 相关工作
过去,人们提出了多种文档分类方法,主要可分为以下两类:
- 基于聚类的方法 :如非负矩阵分解(NMF)、潜在语义分析(LSA)、概率潜在语义分析(PLSA)、多维伯努利分布的有限混合模型等。
- 基于语义资源映射的方法 :以WikipediaMiner项目为代表,该项目将文档短语映射到维基百科的相关术语上,分为两个阶段:首先选择可能的索引术语,然后评估候选术语并选择最合适的术语。对于每个候选关键词,会计算其关键短语度(keyphraseness),用于估计该术语成为链接的概率。在第二阶段,会选择并消除潜在的“离群值”,通过计算语义和统计特征,应用分类算法对术语进行最终排序。此外,还有一种方法使用局部随机游走PageRank计算来找出与文档最相关的术语。
本文的工作与W
超级会员免费看
订阅专栏 解锁全文
4536

被折叠的 条评论
为什么被折叠?



