【面筋】NER技巧

Finks_chen

于 2021-07-07 17:56:12 发布

阅读量304

点赞数

CC 4.0 BY-SA版权

分类专栏：面筋

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.youkuaiyun.com/Finks_Chen/article/details/118553648

本文介绍了12个提升中文命名实体识别（NER）效果的技巧，包括领域词典匹配、规则抽取、词向量选取、特征提取器选择、专有名称处理、标注数据不足的解决方案，以及如何处理嵌套实体识别等问题。文中详细探讨了各种方法的优缺点，并提供了实际应用场景和解决策略。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

【面筋】NER技巧

文章目录

【面筋】NER技巧

trick 1：领域词典匹配

场景：对于某些常见短语，可以采用 词典匹配 的方式。
方法：构建一个常见短语的词典，比如药物、疾病等，然后采用 flashtext 进行关键词匹配；
优点：
- 能够准确的挖掘出常见短语；
- 效率更快
缺点：
- 对于有些嵌套实体，如果长实体未包含在词典中，那么将匹配到短实体；
- 词典收集工作量大

trick 2：规则抽取

场景：对于一些规定句式，可以采用规则匹配的方式。
方法：构建一些规则模板库，比如 “<PER> 去|到|抵达|经过 <LOC>”、“<drug> 能够|可以治疗 <disease>” 等；
优点：
- 对于某些固定句式，这种方法匹配度高；
- 效率快；
缺点：
- 会出现干扰词，eg: “<PER> 去|到|抵达|经过|访 <LOC>” 抽取 "特朗普和第一夫人访华" -> (特朗普和第一夫人,<PER>)、(华，<LOC>);
- 需要手工制定规则；

trick 3：词向量选取：词向量 or 字向量？

词向量
- 方式：首先对句子进行分词，然后训练所有词语的向量表示，最后利用这些词向量训练模型；
- 优点：
  - 能够帮助模型学习句子中词汇关系；
- 缺点：
  - OOV 问题（out of vocabulary 超出词表之外的词）；
  - 维护成本高；
  - 如果分词效果不好，那么词向量的质量将受影响；
字向量
- 方式：首先对句子按字切分，然后训练所有字的向量表示，最后利用这些字向量训练模型；
- 优点：
  - 解决了词向量的 OOV 问题；
  - 减少人工维护成本；
  - 不用分词；
  - 在训练数据质量较差的时候（比如口语化较多，错别字较多，简称缩写较多等），采用字向量的效果好于词向量;
- 缺点：
  - 学不出词语间的关系；
- 解决方法：
  - 利用具有双向的特征提取器能够缓解该功能，eg: bilstm、bert 等；

trick 4：特征提取器如何选择？

短句子：
- 模型：LSTM、BiLSTM、CNN、IDCNN
- 优点：
  - 在句子较短的情况下，模型能够捕获句子中词语间的依赖关系
长句子：
- 模型：Bert：应该说纯attention网络，用来解决长距离依赖问题；BERT的预训练模型有长度限制，需要注意；
- 优点：
  - 在句子较长的情况下，由于 LSTM、BiLSTM、CNN、IDCNN 会出现长距离依赖问题，所以性能下降；

trick 5：专有名称怎么处理？

如果专有名称，不是要识别的实体，可以把它替换成特殊的token提高学习效率；例如，如果要抽取的实体是数字，可以把所有数字替换成0；

场景：#1机组1A锅炉磨煤机故障，#2机组2C炉磨煤机故障。实体是磨煤机。
方法：在训练ner模型时，可以将一类专业名词改写成一个符号表示

最低0.47元/天解锁文章

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。