自然语言处理中的实体提取与分块技术详解
1. 命名实体提取
命名实体识别是一种特定的分块提取方式,它使用实体标签而非分块标签,或者在分块标签的基础上额外使用实体标签。常见的实体标签包括 PERSON(人物)、ORGANIZATION(组织)和 LOCATION(地点)。经过词性标注的句子会像普通分块一样被解析成块树,但树的标签可以是实体标签而非分块短语标签。
1.1 使用预训练的命名实体分块器
NLTK 自带一个预训练的命名实体分块器,它是基于 ACE 项目的数据进行训练的。这个分块器可以通过 nltk.chunk 模块中的 ne_chunk() 方法来使用,该方法会将单个句子分块成树。示例代码如下:
from nltk.chunk import ne_chunk
ne_chunk(treebank_chunk.tagged_sents()[0])
运行结果如下:
Tree('S', [Tree('PERSON', [('Pierre', 'NNP')]), Tree('ORGANIZATION',
[('Vinken', 'NNP')]), (',', ','), ('61', 'CD'), ('years', 'NNS'),
('old', 'JJ'), (',', ','), ('will', 'MD'), ('join', 'VB'), ('the',
'DT'), ('board', 'NN'), ('as', 'IN'), ('a', 'DT'),
超级会员免费看
订阅专栏 解锁全文
667

被折叠的 条评论
为什么被折叠?



