33、基于图中心性和WordNet的关键词提取与混合移动学习架构探索

图中心性与WordNet关键词提取及混合移动学习架构

基于图中心性和WordNet的关键词提取与混合移动学习架构探索

基于图中心性和WordNet的关键词提取

在文档处理中,基于图的方法因能轻松计算与领域无关的关键词而得到广泛研究。例如,SemanticRank利用WordNet和Wikipedia的基于知识的度量以及PageRank和Hits的图中心性度量,通过图技术挖掘文档的语义相关性。Boudin的实验表明,简单的图中心性度量(如度中心性)在较短文档的关键词提取中能取得与广泛使用的TextRank算法相当的结果。无监督的基于图的关键词提取在科学文档中很有用,因为通常没有预先存在的数据集。

关键词提取算法方案

我们提出的关键词提取算法基于图连通性度量。为了分离图连通性度量对关键词提取的影响,我们使用了一种通用的消歧算法,该算法参数少,几乎完全依赖图结构来推断词义。我们使用WordNet的词义清单,但基于图的算法和连通性度量并不局限于此词典,其他具有不同词义区分和结构的资源也可作为知识库。

具体操作步骤如下:
1. 解析文档 :提取文档中的所有单词,去除停用词,选择所有在其同义词集中具有名词含义的单词,并将单词列表初始化为空。
2. 计算关系 :对于每个单词x,计算其同义词集的上位词和下位词,并与所有已发现的单词进行深度优先搜索(DFS)。如果找到匹配,则认为两个单词之间存在关系。
3. 探索边 :从最近发现的单词y开始探索边,直到没有新的边可发现。
4. 分析网络 :使用以下中心性方法分析网络:
- 度中心

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值