基于网络的命名实体识别器训练实践解析
1. 上下文分析与词典构建
在命名实体识别过程中,上下文分析是一项重要的技术手段。除了在种子词周围的上下文上训练文本分类器,我们还构建了一个专门的上下文词典。其背后的原理是,一个词前后的词序列能够很好地指示实体类型。
例如,“X traveled to Y”、“X was born in Y”、“X came back from Y” 这些两到三个词的上下文表明,当作为左上下文模式使用时,Y 可能是一个地点;当作为右上下文模式看待时,X 可能是一个人。
我们构建的上下文词典类似于常见的词典,但使用的是上下文短语而非 n - 元组。上下文短语的长度在 1 到 3 个单词之间,并且会将所有数字表达式映射为 “NUM” 一词。这样做可以提高包含数字的上下文短语的召回率,比如 “X paid 2 dollars” 和 “X paid 3 dollars” 都会被捕获为 “paid NUM dollars”。这个上下文词典将在实体识别的最后一步发挥作用。
2. 命名实体识别器的使用流程
当我们在自动生成的训练数据上训练好命名实体识别器(NER)后,就可以开始使用它了。整个识别过程可以分为三个部分,具体流程如下:
graph LR
A[输入文本] --> B[实体检测]
B --> C[实体分类]
C --> D[后处理]
D --> E[输出结果]
2.1 实体检测
在实体检测阶段,我们需要在文本中找出实体候选
超级会员免费看
订阅专栏 解锁全文
3624

被折叠的 条评论
为什么被折叠?



