30、基于文本的网络语料库自动分类法构建中的词义消歧

sprite

于 2025-11-15 12:45:48 发布

阅读量11

点赞数

CC 4.0 BY-SA版权

分类专栏： Web智能前沿探析文章标签：词义消歧自动分类法构建文本分类

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/sprite/article/details/155265980

Web智能前沿探析专栏收录该内容

41 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

基于文本的网络语料库自动分类法构建中的词义消歧

1. 引言

如今，网络上数字化存储的文档数量不断增加，但很多文档的组织方式缺乏结构。通过创建分类法来结构化组织这些文档，有助于提升对可用文档的整体认知。分类法是一种特殊的本体，能为用户提供领域概念之间的类型关系。

目前，许多分类法是手动创建的，虽然手动构建通常更准确，但自动生成分类法成本更低、耗时更少。网络上存在大量未关联和缺乏结构的信息，自动分类法构建能够促进网站和工具之间的互操作性。尽管已有大量关于自动分类法构建的文献，但聚焦于应用词义消歧（WSD）的文献较少，而WSD已被证明能改善聚类结果。

本文的主要贡献有四点：
1. 分析WSD对分类法构建的影响。
2. 研究自动文本分类法构建（ATCT）框架中各方法的最优参数。
3. 修改已有包含算法，考虑祖先节点相对于当前节点的位置。
4. 展示该方法在经济学、管理学和医学领域的应用。

2. 相关工作

从文本语料库中提取术语的方法有语言学方法、统计方法和混合方法：
- 语言学方法 ：通常使用自然语言处理（NLP）技术，如词性标注、形态分析和词汇句法模式，但不考虑术语的重要性。
- 统计方法 ：仅使用统计技术提取术语，可能会过滤掉出现频率较低但重要的术语。
- 混合方法 ：结合卡方检验、术语长度等，弥补了前两种方法的不足。

词义消歧有多种相似性度量方法，如Resnik相似度计算速度快但可能不准确，Jiang和Conrath的相似度度量更准确，考

会员秒杀 ¥9.9 重磅福利

超级会员免费看

评论

成就一亿技术人!

拼手气红包6.0元

还能输入1000个字符 | 博主筛选后可见

添加红包

插入表情

表情包

代码片

HTML/XML
objective-c
Ruby
PHP
C
C++
JavaScript
Python
Java
CSS
SQL
其它

条评论被折叠查看

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。