基于文本的网络语料库自动分类法构建中的词义消歧
1. 引言
如今,网络上数字化存储的文档数量不断增加,但很多文档的组织方式缺乏结构。通过创建分类法来结构化组织这些文档,有助于提升对可用文档的整体认知。分类法是一种特殊的本体,能为用户提供领域概念之间的类型关系。
目前,许多分类法是手动创建的,虽然手动构建通常更准确,但自动生成分类法成本更低、耗时更少。网络上存在大量未关联和缺乏结构的信息,自动分类法构建能够促进网站和工具之间的互操作性。尽管已有大量关于自动分类法构建的文献,但聚焦于应用词义消歧(WSD)的文献较少,而WSD已被证明能改善聚类结果。
本文的主要贡献有四点:
1. 分析WSD对分类法构建的影响。
2. 研究自动文本分类法构建(ATCT)框架中各方法的最优参数。
3. 修改已有包含算法,考虑祖先节点相对于当前节点的位置。
4. 展示该方法在经济学、管理学和医学领域的应用。
2. 相关工作
从文本语料库中提取术语的方法有语言学方法、统计方法和混合方法:
- 语言学方法 :通常使用自然语言处理(NLP)技术,如词性标注、形态分析和词汇句法模式,但不考虑术语的重要性。
- 统计方法 :仅使用统计技术提取术语,可能会过滤掉出现频率较低但重要的术语。
- 混合方法 :结合卡方检验、术语长度等,弥补了前两种方法的不足。
词义消歧有多种相似性度量方法,如Resnik相似度计算速度快但可能不准确,Jiang和Conrath的相似度度量更准确,考
超级会员免费看
订阅专栏 解锁全文
2028

被折叠的 条评论
为什么被折叠?



