基于分布式表示
关键概念获取
- 生成候选上位词(hypernyms)或下位词(hyponyms),这两类词通常是key terms,我们可以通过词性标注(POS tagging)或者命名实体识别(named entity recognition,NER)加上基于规则的匹配来提取。
- 对于专业领域的taxonomies,需要在预处理的最后进行domain filter来过滤掉不在领域内的术语从而提高准确率。过滤的方法包括TF,TF-IDF,domain relevance,domain consensus and domain specificity scores。
- 无监模型
早期的研究大部分都关注对称度量方法(symmetric measures),例如cosine, Jaccard, Jensen-Shannon divergence(JS散度)以及LIN方法。
LIN(x,y)=∑f∈Fx⋂fywx(f)+wy(f)∑f∈Fxwx(f)+∑f∈wy

本文介绍了Taxonomy构建中的分布式表示方法,包括关键概念获取、对称与非对称度量、词向量表示和监督模型。通过词性标注、命名实体识别以及各种度量方法如LIN、WeedsPrec和SLQS来识别上位词和下位词关系。同时,讨论了词向量在分类任务中的应用,以及词汇记忆问题和解决方案。最后,对比了基于规则和分布式表示方法的优缺点,提出两者的结合可以提升Taxonomy构建的性能。
最低0.47元/天 解锁文章
2220

被折叠的 条评论
为什么被折叠?



