Motivation:
命名实体识别(NER)是识别文本中基于特定意义的实体,例如人名、地名、机构名等。因为命名实体是信息抽取的关键步骤,而目前大多数的方法都是人为构造特征例如构造正则表达式。这种基于规则的NER方法只能用于某一种特定语言,其鲁棒性和迁移性较差。因此本文提出一种基于HMM的机器学习方法实现命名实体识别。
核心思想:
隐马尔可夫模型经常用于标注问题,这时状态对应着标记,标注问题是给定观测的序列预测其对应的标记序列。NER对应的数学公式表达为:
(1)
其中,是标记序列,也就是我们最终想获得的输出;
,是观测序列即输入。为了简化计算,假设每个标记之间是独立的,所以第二项