NLTK学习笔记——信息抽取(1)

本文是NLTK学习笔记的第一部分,聚焦信息抽取。内容涵盖文本切分、句子切分、词性标注、命名实体识别和关系识别等步骤。重点介绍了RegexpParser类在分析预先定义的分块语法时的作用,以及如何使用该类进行语法树的生成。RegexpParser通过读取规则,分离非终结符和规则,识别chunk、chink、split和merge等操作,实现对文本的深入处理。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

信息抽取的内容在《Natural Language Processing》第7章,对于文本的信息抽取,命名实体及其关系的识别是至关重要要的,信息抽取分为以下几个步骤:
1. 文本切分,将string类型的文本划分为list类型的句子
2. 句子切分,将每个list类型的句子划分成由单词或chunk组成的list
3. 词性标注,生成由一个list,其组成内容是多个形如(word,lable)的tuple
4. 命名实体识别,生成各个tree组成一个list
5. 关系识别,生成一个list,其内容是多个形如(entity,relation,entity)的tuple

在tree的构成中,分块是个重要的过程,如NP(DT,JJ,JJ,NN)可构成一个NP短语。nltk中有重要的类是RegexpParser,分析预先定义的分块语法grammar,得到多个语法规则,然后利用parser函数对句子分析,得到语法树。下面就介绍一个RegexpParser分析grammar的过程和parser函数的解析过程。

  • RegexpParser类

调用:cp=nltk.RegexpParser(grammar)
输入:分块语法grammar,有一个或多个识别块信息的正则表达式,如:

grammar = r"""
    NP: {<.*>*}             # start by chunking everything
    }<[\.VI].*>+{       # chink any verbs, prepositions or periods
    <.*>}{<DT>        
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值