基于图中心性和WordNet的关键词提取与混合移动学习架构探索
基于图中心性和WordNet的关键词提取
在文档处理中,基于图的方法因能轻松计算与领域无关的关键词而得到广泛研究。例如,SemanticRank利用WordNet和Wikipedia的基于知识的度量以及PageRank和Hits的图中心性度量,通过图技术挖掘文档的语义相关性。Boudin的实验表明,简单的图中心性度量(如度中心性)在较短文档的关键词提取中能取得与广泛使用的TextRank算法相当的结果。无监督的基于图的关键词提取在科学文档中很有用,因为通常没有预先存在的数据集。
关键词提取算法方案
我们提出的关键词提取算法基于图连通性度量。为了分离图连通性度量对关键词提取的影响,我们使用了一种通用的消歧算法,该算法参数少,几乎完全依赖图结构来推断词义。我们使用WordNet的词义清单,但基于图的算法和连通性度量并不局限于此词典,其他具有不同词义区分和结构的资源也可作为知识库。
具体操作步骤如下:
1. 解析文档 :提取文档中的所有单词,去除停用词,选择所有在其同义词集中具有名词含义的单词,并将单词列表初始化为空。
2. 计算关系 :对于每个单词x,计算其同义词集的上位词和下位词,并与所有已发现的单词进行深度优先搜索(DFS)。如果找到匹配,则认为两个单词之间存在关系。
3. 探索边 :从最近发现的单词y开始探索边,直到没有新的边可发现。
4. 分析网络 :使用以下中心性方法分析网络:
- 度中心
图中心性与WordNet关键词提取及混合移动学习架构
超级会员免费看
订阅专栏 解锁全文
886

被折叠的 条评论
为什么被折叠?



