Python NLTK提取有用的chunk

最新推荐文章于 2025-01-07 14:40:40 发布

Json_Nie

最新推荐文章于 2025-01-07 14:40:40 发布

阅读量2.8k

点赞数 1

CC 4.0 BY-SA版权

分类专栏： Python NLTK

本文链接：https://blog.youkuaiyun.com/DreamD1987/article/details/9412333

Python 同时被 2 个专栏收录

24 篇文章

订阅专栏

NLTK

1 篇文章

订阅专栏

本文介绍了如何通过分词和正则表达式解析文本信息，提取特定类型的数据，包括使用NLTK库对句子进行分词、词性标注，并定义语法模式以识别所需信息。此外，文章还提供了一个方法来筛选非英语单词，确保提取过程更加精确。

文本的信息很多，我们需要如何提取有用的信息？

比如一句话：

Json is a good boy

我们希望得到的信息是json 和 a good boy

那么首先我们需要对句子进行分词和判断单词的属性：

可以用下面的代码：

def ie_preprocess(document):
...    sentences = nltk.sent_tokenize(document) 
...    sentences = [nltk.word_tokenize(sent) for sent in sentences] 
...    sentences = [nltk.pos_tag(sent) for sent in sentences]

然后需要我们规定需要提取的信息的类型：

也就是语法上的格式：

grammar = "NP: {<DT>?<JJ>*<NN>}"

这里DT是定语，JJ是形容词，NN是名词

cp = nltk.RegexpParser(grammar)

之后使用

result = cp.parse(sentence)

对语句进行分析

会得到一个nltk.tree.Tree的结构的东西

然后我们通过：

for n in chunked:
	if isinstance(n, nltk.tree.Tree):
		if n.node=='NP':
			a = n

这样的代码拿到我们需要的片段

实际中，这个方法并不能去掉一些非英语的单词

我们可以加入：

d = enchant.Dict("en_US")

这样的判读去删选。

希望对大家有帮助。

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Json_Nie

关注关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

NLP之NLTK/spacy：利用nltk对文本数据语料库实现将句子中的词组分为不同的语义单元三种方法(Chunk组块分析/NER命名实体识别/短语结构分析)的应用案例实现代码

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

06-09

635

NLP之NLTK：利用nltk对文本数据语料库实现将句子中的词组分为不同的语义单元三种方法(Chunk组块分析/NER命名实体识别/短语结构分析)的应用案例实现代码目录利用nltk对文本数据语料库实现将句子中的词组分为不同的语义单元三种方法(Chunk组块分析/NER命名实体识别/短语结构分析)的应用案例利用nltk对文本数据语料库实现将句子中的词组分为不同的语义单元三种方法实现代码利用nltk对文本数据语料库实现将句子中的词组分为不同的语义单元三种方法(Chunk

python nltk 7 从文本提取信息

lakomi的博客

07-10

2288

nltk——从文本提取信息Extracting Information from Text（从文本提取信息）1 Information Extraction（信息提取）2 Chunking（词块划分）2.1 Noun Phrase Chunking（名词短语词块划分）2.2 Exploring Text Corpora（用正则表达式进行词块划分）英文文档 http://www.nltk.org/book/ 中文文档 https://www.bookstack.cn/read/nlp-py-2e-zh

参与评论您还未登录，请先登录后发表或查看评论

自然语言16_Chunking with NLTK

weixin_30772261的博客

11-19

190

sklearn实战-乳腺癌细胞数据挖掘（博主亲自录制视频教程） https://study.163.com/course/introduction.htm?courseId=1005269003&utm_campaign=commission&utm_source=cp-400000000398149&utm_medium=share Chunking...

基于chunk的短语级标签自动抽取

weixin_33698043的博客

07-08

412

概述：前段时间，听一个在某公司实习的同学说他现在做的东西是基于短语级的文章标签自动抽取。听起来感觉还挺有趣。具体详细的算法我不太了解，但他说他们是基于热门搜索词汇（短语）的标签自动抽取，即通过匹配热门词汇中的词汇来抽取一篇文章的标签。感觉该方法虽然也可以实习短语级的标签抽取，但且没有体现NLP技术在工业界的实际应用，且抽取结果很大程度上受限于该热门词汇表。我无聊时，在...

python nltk 命名实体_Python lis的NLTK命名实体识别

weixin_39895684的博客

12-10

414

nltk.ne_chunk返回一个嵌套的nltk.tree.Tree对象，因此您必须遍历Tree对象才能到达ne。>>> from nltk import ne_chunk, pos_tag, word_tokenize>>> from nltk.tree import Tree>>>>>> def get_continuou...

NLTK08《Python自然语言处理》code07 从文本提取信息

一朵花开的时间

08-31

1805

从文本提取信息# -*- coding: utf-8 -*- # win10 python3.5.3/python3.6.1 nltk3.2.4 # 《Python自然语言处理》 07 从文本提取信息 # pnlp07.py# 7.1 信息提取 # 信息提取结构 import nltk def ie_preprocess(document): sentences = nltk.sent_to

python nltk 人类语言分析库文档

05-09

NLTK支持超过50种语料库和词典资源，例如著名的WordNet，并且包含了一系列文本处理库，如分类、分词、词干提取、标注、解析以及语义推理等。此外，NLTK还为一些工业级别的自然语言处理工具提供了封装。 #### 二、...

python 命名实体识别_Python NLTK学习11（命名实体识别和关系抽取）

weixin_39630762的博客

12-02

2180

Python NLTK学习11(命名实体识别和关系抽取)发表于:2017年7月27日阅读:18262除特别注明外，本站所有文章均为小杰Code原创本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。命名实体识别命名实体识别(NER)系统的目标是识别所有文字提及的命名实体。可以分解成两个子任务：确定NE的边界和确定其类型。命名实体识别非常适用于基于分类器类型的方法来处理的任务。...

python nltk语义分析_Python自然语言工具包(NLTK)入门

weixin_39562340的博客

11-21

965

在本期文章中，小生向您介绍了自然语言工具包（Natural Language Toolkit），它是一个将学术语言技术应用于文本数据集的 Python 库。称为“文本处理”的程序设计是其基本功能；更深入的是专门用于研究自然语言的语法以及语义分析的能力。鄙人并非见多识广，语言处理（linguistic processing）是一个相对新奇的领域。如果在对意义非凡的自然语言工具包（NLTK）的说明...

Python之nltk分词库使用

weixin_52728306的博客

01-07

945

介绍了nltk分词库的主要使用方法

chunk分块 python

是鲤鱼啊

03-11

9621

import torch a = torch.randn(2,3) b = a.unsqueeze(2).unsqueeze(3) c,d = b.chunk(2,1) #chunk(a,b),a表示分成的块数，b=0沿横向分割，b=1沿纵向分割 print(a) print(',,,,,,,,,,,,,') print(b.shape) #[2,3,1,1] print(b) print('....

python之模块chunk，了解即可

weixin_34082695的博客

11-08

975

# -*- coding: utf-8 -*-#python 27#xiaodeng#python之模块chunk# chunk模块专用于读取TIFF格式的文件，打开应当使用二进制模式 #TIFF：标签图像文件格式 import chunk f=open('E:\\test.tiff','rb') print(type(f)) html=chunk.Chunk(f) print ht...

python 数据逐个验证_Python 数据分析之逐块读取文本的实现

weixin_39715187的博客

12-16

309

背景《利用Python进行数据分析》，第 6 章的数据加载操作 read_xxx，有 chunksize 参数可以进行逐块加载。经测试，它的本质就是将文本分成若干块，每次处理 chunksize 行的数据，最终返回一个TextParser 对象，对该对象进行迭代遍历，可以完成逐块统计的合并处理。示例代码文中的示例代码分析如下：from pandas import DataFrame,Seriesi...

【Python】chunksize分块读取 *[list] isinstance(a, str)

专注于医院数据分析技术与系统开发的创作与分享。

09-29

1411

目录一、场景需求二、技术重点2.1 数据分块读取2.2 对日期分列，以便按年月日分别可视化2.3 isinstance(a, str) 判断数据类型三、完整代码一、场景需求 2019-2020年Covid-19数据，20多万行，提取一部分数据，以便进一步做可视化分析。二、技术重点 2.1 数据分块读取一般数据超过5万行，就建议分块读取，可以减轻系统压力，提高数据处理效率。这次的20多万行，其实一次性读入也行，就是有点吃力，但如果是2000万行、20亿行呢？那就必须分块了。稍微有点规模的数据库上亿的

Python数据处理（三）-txt文件指定数据提取并可视化作图

weixin_56228140的博客

02-27

1616

系列文章：1，2，3，txt文件指定数据提取并可视化作图（本文）

Python文本预处理，试试BAT大佬总结的实用代码！

爬遍所有网站

11-08

332

本文将讨论文本预处理的基本步骤，旨在将文本信息从人类语言转换为机器可读格式以便用于后续处理。此外，本文还将进一步讨论文本预处理过程所需要的工具。当拿到一个文本后，首先从文本正则化（text normalization）处理开始。常见的文本正则化步骤包括：将文本中出现的所有字母转换为小写或大写将文本中的数字转换为单词或删除这些数字删除文本中出现的标点符号、重音符号以及其他变音符号删除文本中的空白区域扩展文本中出现的缩写删除文本中出现的终止词、稀疏词和特定词文本规...

NLP之NLTK、spacy、jieba(中文)的使用

qq_53582111的博客

09-19

2617

【代码】NLP之NLTK的使用。

Python文本预处理：步骤、使用工具及示例

python学习者的博客

04-12

3975

python自然语言处理第七章

qq_34505594的博客

03-09

763

1.句子分割器，分词器和词性标注器。def ie_preprocess(document): sentences=nltk.sents_tokenize(document) sentences=[nltk.word_wokenizes(sent) for sent in sentences] sentence=[nltk.pos_tag(sent) for sent in sen...

python chunk