13、基于网络的命名实体识别器训练实践解析

基于网络的命名实体识别器训练实践解析

1. 上下文分析与词典构建

在命名实体识别过程中,上下文分析是一项重要的技术手段。除了在种子词周围的上下文上训练文本分类器,我们还构建了一个专门的上下文词典。其背后的原理是,一个词前后的词序列能够很好地指示实体类型。

例如,“X traveled to Y”、“X was born in Y”、“X came back from Y” 这些两到三个词的上下文表明,当作为左上下文模式使用时,Y 可能是一个地点;当作为右上下文模式看待时,X 可能是一个人。

我们构建的上下文词典类似于常见的词典,但使用的是上下文短语而非 n - 元组。上下文短语的长度在 1 到 3 个单词之间,并且会将所有数字表达式映射为 “NUM” 一词。这样做可以提高包含数字的上下文短语的召回率,比如 “X paid 2 dollars” 和 “X paid 3 dollars” 都会被捕获为 “paid NUM dollars”。这个上下文词典将在实体识别的最后一步发挥作用。

2. 命名实体识别器的使用流程

当我们在自动生成的训练数据上训练好命名实体识别器(NER)后,就可以开始使用它了。整个识别过程可以分为三个部分,具体流程如下:

graph LR
    A[输入文本] --> B[实体检测]
    B --> C[实体分类]
    C --> D[后处理]
    D --> E[输出结果]
2.1 实体检测

在实体检测阶段,我们需要在文本中找出实体候选

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值