缺乏标注语料下如何实体识别

本文介绍了在缺乏标注语料的情况下进行实体识别的方法,重点讨论了无监督实体识别的策略。通过利用专有名词的词性特征和分布假设进行识别,并提出结合词向量改善聚类效果。虽然准确率有待提高,但与现有公开数据集结合使用,该方法展现出一定的可行性。此外,提到了有监督学习在自动标注中的应用,并建议结合编辑距离和词向量相似度提升准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >


最近有知识图谱的任务,要做实体识别。才发现实体识别的坑在于公开数据集只标注了人名机构名地点,但是知识图谱的需求一般都是针对垂直领域。即需要识别出数据库字段对应特定的实体,然而有些领域的实体标注会很麻烦,一个是没有足够的语料,一个是非专家可能会标错。

无监督实体识别

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC3865922/
其核心架构图如下:
在这里插入图片描述

如何识别出专有名词

它是通过一个假设,专有名词都是名词短语,然后利用短语的idf去判断这样的名词组合是否合理和常见。
实际工程中,发现只要带n的词性都可以这样做,在足够多的语料中,确实能够识别专有名词,因为同一领域的语料专有名词会有集中趋势。

如何识别出其所属类别

它是通过一个分布假设WSD(word sense distribution )即同样类别的词在句子中前后词会出现一种集中的趋势,因此需要有一个语料库用来描述每一类本体的sense,然后通过统计这个语料库中所有描述本体的句子中词的tf-idf,构成向量聚类的思想,得到每个本体的向量。然后就用余弦去衡量相似性。
这是2013年的论文,当时词向量还没火,所以完全可以利用词向量去做这样的一个聚类,而不是单纯tf-idf去做这样的聚类,
同样当数据库有这样的字段,它的所有值对应词向量的聚类就可以用来表示这个本体的向量

结果

  • 人工的rule还是要上,数据的清洗也要上
  • 如果单纯依靠这个方法
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值