Hanlp自然语言处理包中的基于HMM-Viterbi处理人名识别的内容大概在年初的有分享过这类的文章,时间稍微久了一点,有点忘记了。看了 baiziyu 分享的这篇比我之前分享的要简单明了的多。下面就把文章分享给大家交流学习之用,部分内容有做修改。
基
本文主要介绍一下HanLP是如何利用HMM来做人名识别的。本思想是把词语序列作为观测序列,将角色序列作为隐藏序列,当模型预测出最佳隐藏状态序列后,利用模式最大匹配法,匹配出人名实体。下边说一模型的三要素在这个应用中所对应的内容,因为训练阶段就是要求解这三个要素的值。
假设有下边的观测序列和其对应的隐藏序列
观察值序列:词1 词2 … 词n
隐变量序列:角色1 角色2 … 角色n
训练阶段:统计三个要素(三个矩阵的元素值)
初始概率分布: