My solution
a primer on NER
NER(Named entity recognition)命名实体识别是一种序列标注问题,
输入一个句子,输出一个标注的序列。
标注的种类有:
- Person (PER) (He or she are not considered named entities.)
- Organization (ORG)
- Location (LOC)
- Miscellaneous (MISC) (杂项)
- O(不是命名实体)
标注的评价指标:
对于非空的标注,计算Recall, Precision, F1-score(如果直接计算全体标注正确率,会因为O比较多造成较大干扰)。
另外有entity-level评价指标:
也就是说计算entitiy的Recall, Precision和F1-score的值,那么只有在一个词组全部标注对的时候,才算标注正确了这个entity。
更全面的刻画是confusion matrix,例如:
gold/guess | PER | ORG | LOC | MISC | O |
---|---|---|---|---|---|
PER | 2973 | 59 | 41 | 14 | 62 |
ORG | 152 | 1648 | 94 | 62 | 136 |
LOC | 57 |