命名实体识别(NER):从规则到深度学习的演变
1. 标题分配与规则管道
在处理新闻文章数据集时,由于标题常出现全大写字母的情况,基于大小写的规则无法适用。因此,需要根据之前步骤返回的实体,扫描全大写字母的标题。例如,对于标题 “TAGORE REMEMBERED ON HIS ANNIVERSARY”,“TAGORE” 会被分配人物类型的实体,因为在管道的早期步骤中它已被提取为该类型。
规则管道的不同步骤如下:
1. 第一步 :对命名实体及其类型采取保守但高置信度的观点,依赖于地名词典列表中的完全匹配。
2. 第二步至第四步 :允许实体的部分匹配,并使用基于模式的分类器。即使句子未在规则模式中被特定捕获,句子中的命名实体也能被分类。
3. 最后一步 :这是特定领域的要求。由于所使用的数据集领域包含全大写的句子,需要进行特殊处理。
这些步骤并非相互独立。第一步返回的实体用于第二步的部分匹配,第一步的规则在规则放宽步骤中再次匹配。此外,在每一步,之前步骤已预测标签的句子用于为尚未标记的句子分配标签。
2. 第二代:概率模型
2.1 线性上下文与概率推断
在句子 “I went to X” 中,可以推断 X 很可能是一个地点,因为前面的动词 “went” 与地点相关,后面的介词 “to” 进一步增强了这种可能性。而在句子 “I went with X” 中,“with” 意味着后面的词很可能是一个人。“可能是地点” 和 “可能是人物” 表明概率在其中起到了作用。一个词或短语可
超级会员免费看
订阅专栏 解锁全文
749

被折叠的 条评论
为什么被折叠?



