命名实体识别系列(二)NER技术选型

实际工作中往往不是直接训练某个NER模型,而是要先根据当前NER任务的特点进行技术选型,通常NER的识别技术为:规则抽取、实体词典匹配和模型预测

  1. 基于规则的实体抽取:有些实体具有很强的模板(规则)性质,所以可以通过人工简单的配置一些模板规则就可以获得高准确率的实体抽取结果。例如结构化/半结构化数据中的实体抽取、利用某些特殊符号如书名号等等。
  2. 基于实体词典匹配的实体识别:实体词典是一种常用的资源,可以通过离线挖掘不断拓展。不断增加的新实体对实现高准确率、高覆盖率的NER带来了很大挑战,通过实体词典匹配的方法可以有效解决这一问题。基于词典匹配的方法对新业务的拓展能力也强。而且词典匹配速度快,基本不存在性能问题。
  3. 模型预测:词典无法完全涵盖表述复杂、非标准化表达的实体,而模型预测具备泛化能力,可作为词典匹配的有效补充。另外,某些领域的实体可能具备歧义性问题,这包括边界歧义性和类型歧义性。

所谓NER的技术选型,就是综合上述技术方案,针对当前NER任务的特点设计整体的技术框架。需要注意的是,实体识别后续可能紧跟实体消歧、实体链接等模块,这时候的技术选型就要结合多个模块对整体进行技术设计。

例如,

在美团搜索中,用户查询的头部流量通常较短、表达形式简单,且集中在商户、品类、地址等三类实体搜索,实体词典匹配处理这类查询准确率也可达到 90%以上。因此美团搜索以实体词典匹配结果为优先考虑,结合模型预测处理表述复杂的中长尾搜索。采用训练好的CRF权重网络作为打分器,来对实体词典匹配、模型预测两路输出的NER路径进行打分。在词典匹配无结果或是其路径打分值明显低于模型预测时,采用模型识别的结果,其他情况仍然采用词典匹配结果。

在医学领域命名实体识别中,识别数据为医学文档,例如医学教材、病例文本等,所要识别的实体(疾病名、药物名等)具备标准表述,而且对于识别结果的召回率准确率要求很高。在这个场景下,主要依赖医学实体词典匹配方法来识别实体,并需要设计模型来处理词典匹配歧义问题。

在需要依赖上下文推断类别的实体识别(如书名、歌曲名等)中,实体词典匹配仅能发挥mention识别的作用,而无法确定mention的类型。此时的技术选型应以模型预测为主,并强化突出上下文的作用。

总之,不同场景下的NER有不同的特点,针对相应的特点,首先应在整体上进行技术选型。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值