细粒度命名实体识别

本文探讨了命名实体的上位词抽取,包括基于多信息源的候选类别抽取(搜索引擎、百科标签、核心词分析)和候选实体类别排序(SVM、RBF SVM、逻辑回归)。通过多种方法结合,提高了上位词抽取的覆盖率和准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

对于一个已识别出的命名实体,可能属于多个不同粒度的类别,比如“高加索牧羊犬”可能属于的类别包括“狗”、“犬科动物”、“动物”等。命名实体的上位词(Hypernym)指示了其类别,上述的“狗”、“犬科动物”、“动物”都是“高加索牧羊犬”的上位词。目前被广泛使用人工构建的语义词典中就有这样的上下位关系,比如英文的WordNet、汉语的知网、同义词词林(扩展版)。

但是这些词典资源有限,很多研究者尝试才用自动的方法抽取上位词,以往的上位词抽取研究中,常用的方法主要包括:基于模式匹配的方法、基于统计分布相似度的方法、基于在线百科的方法。

其中,基于模式匹配的方法效果不好,主要源于匹配模式有限或有交叉。基于统计分布相似度的方法都基于一个假设:下位词的上下文词汇是其上位词上下文词汇的一个真子集。例:“熊猫”的上下文一定也是“动物”的上下文,但反过来,“动物”的上下文不一定是“熊猫”的上下文,也包括了其他种类动物的上下文。但这样的假设太强,并不能总成立。基于在线百科的方法是用百科页面中的类别标

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值