Taxonomy部分方法

本文介绍了Taxonomy构建中的分布式表示方法,包括关键概念获取、对称与非对称度量、词向量表示和监督模型。通过词性标注、命名实体识别以及各种度量方法如LIN、WeedsPrec和SLQS来识别上位词和下位词关系。同时,讨论了词向量在分类任务中的应用,以及词汇记忆问题和解决方案。最后,对比了基于规则和分布式表示方法的优缺点,提出两者的结合可以提升Taxonomy构建的性能。

基于分布式表示

关键概念获取

  1. 生成候选上位词(hypernyms)或下位词(hyponyms),这两类词通常是key terms,我们可以通过词性标注(POS tagging)或者命名实体识别(named entity recognition,NER)加上基于规则的匹配来提取。
  2. 对于专业领域的taxonomies,需要在预处理的最后进行domain filter来过滤掉不在领域内的术语从而提高准确率。过滤的方法包括TF,TF-IDF,domain relevance,domain consensus and domain specificity scores
  3. 无监模型

    早期的研究大部分都关注对称度量方法(symmetric measures),例如cosine, Jaccard, Jensen-Shannon divergence(JS散度)以及LIN方法。

    LIN(x,y)=fFxfywx(f)+wy(f)fFxwx(f)+fwy
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值