摘要:
记录昇思MindSpore AI框架使用LSTM+CRF模型分词标注的步骤和方法。包括环境准备、score计算、Normalizer计算、Viterbi算法、CRF组合,以及改进的双向LSTM+CRF模型。
一、概念
1.序列标注
标注标签输入序列中的每个Token
用于抽取文本信息
分词(Word Segmentation)
词性标注(Position Tagging)
命名实体识别(Named Entity Recognition, NER)
例如:
输入序列 |
清 |
华 |
大 |
学 |
座 |
落 |
于 |
首 |
都 |
北 |
京 |
输出标注 |
B |
I |
I |
I |
O |
O |
O |
O |
O |
B |
I |
清华大学 和 北京是地名,标签后便于识别实体
“BIOE”标注法:实体(Entity)的开头标注为B,其他部分标注为I,非实体标注为O
2.条件随机场(Conditional Random Field, CRF)
标注序列
标签预测序列中每个Token,
简单的多分类问题
相邻Token直接有关联关系
输入序列 |
清 |
华 |
大 |
学 |
|
输出标注 |
B |
I |
I |
I |
√ |
输出标注 |
O |
I |
I |
I |
× |
正确实体中的Token有依赖关系
I前必须是B或I
错误标注O违背了依赖
引入学习关联关系的算法----条件随机场概率图模型保证依赖正确性。
条件随机场
定义
参数化