30、基于文本的网络语料库自动分类法构建中的词义消歧

基于文本的网络语料库自动分类法构建中的词义消歧

1. 引言

如今,网络上数字化存储的文档数量不断增加,但很多文档的组织方式缺乏结构。通过创建分类法来结构化组织这些文档,有助于提升对可用文档的整体认知。分类法是一种特殊的本体,能为用户提供领域概念之间的类型关系。

目前,许多分类法是手动创建的,虽然手动构建通常更准确,但自动生成分类法成本更低、耗时更少。网络上存在大量未关联和缺乏结构的信息,自动分类法构建能够促进网站和工具之间的互操作性。尽管已有大量关于自动分类法构建的文献,但聚焦于应用词义消歧(WSD)的文献较少,而WSD已被证明能改善聚类结果。

本文的主要贡献有四点:
1. 分析WSD对分类法构建的影响。
2. 研究自动文本分类法构建(ATCT)框架中各方法的最优参数。
3. 修改已有包含算法,考虑祖先节点相对于当前节点的位置。
4. 展示该方法在经济学、管理学和医学领域的应用。

2. 相关工作

从文本语料库中提取术语的方法有语言学方法、统计方法和混合方法:
- 语言学方法 :通常使用自然语言处理(NLP)技术,如词性标注、形态分析和词汇句法模式,但不考虑术语的重要性。
- 统计方法 :仅使用统计技术提取术语,可能会过滤掉出现频率较低但重要的术语。
- 混合方法 :结合卡方检验、术语长度等,弥补了前两种方法的不足。

词义消歧有多种相似性度量方法,如Resnik相似度计算速度快但可能不准确,Jiang和Conrath的相似度度量更准确,考

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值