如何帮助理解本文
了解Basic LSTM的基本原理,最好能进行公式的推导
什么是命名实体识别?
命名实体识别(Named Entity Recognition,NER)是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的准确度,决定了下游任务的效果,是NLP中非常重要的一个基础问题。举个例子:
命名实体识别的任务就是从文本中自动提取出各种类型的命名实体,如上图的人名实体、机构实体、地点实体等。
**
中文命名实体识别的两种方案
**
1.基于中文字的方法
即以每一个中文字为一个单位进行标注和训练,不需要对文本进行分词,但是基于字符的方案存在无法利用词与词之间的语义信息,影响了命名实体识别的效果。
如上图所示,首先将字符通过Embedding生成对应的向量,即x,然后通过特征提取网络如双向LSTM模型生成c,在通过CRF进行解码输出最后的结果。
2.基于中文词的方法
即以中文词为一个单位进行标注和训练,需要首先对文本进行分词,再形成对应的词向量,这种方法考虑了词