nltk.获得文本语料和词汇资源

最新推荐文章于 2021-12-20 10:26:28 发布

原创

最新推荐文章于 2021-12-20 10:26:28 发布 · 1.3k 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#nlp

1.获取文本语料库

1.1古滕堡语料库

nltk.corpus.gutenberg.fileids()//古滕堡语料库文件标识符
emma = nltk.corpus.gutenberg.words('austen-emma.txt')emma = nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))//我们调用了NLTK 中的corpus 包中的gutenberg 对象的words()函数
emma.concordance("surprize")//获取包含suprize得上下文

macbeth_sentences = gutenberg.sents('shakespeare-macbeth.txt')//sents()函数把文本划分成句子，其中每一个句子是一个词链表。

1.2网络和聊天文本

from nltk.corpus import webtext

from nltk.corpus import webtext
>>> for fileid in webtext.fileids():
... print (fileid, webtext.raw(fileid)[:65], '...')

from nltk.corpus import nps_chat

chatroom = nps_chat.posts('10-19-20s_706posts.

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

Pinaceae

关注关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

获得文本语料和词汇资源（基于nltk）

sikh_0529的博客

09-14

1万+

NLTK 中提供了很方便的方式来访问这些语料库中的几个，还有一个包含语料库和语料样本的数据包，用于教学和科研的话可以免费下载。图 1.3：文本语料库的常见结构：最简单的一种语料库是一些孤立的没有什么特别的组织的文本集合；一个函数是命名的代码块，执行一些明确的任务，就像我们在 1 中所看到的那样。知道哪些词是语义相关的，对索引文本集合非常有用，当搜索一个一般性的用语例如车辆时，就可以匹配包含具体用语例如豪华轿车的文档。处理布朗语料库的 NLTK 代码是一个模块，处理各种不同的语料库的代码的集合是一个包。

python之获得文本语料和词汇资源（3）

weixin_47237915的博客

03-23

483

一级目录二级目录三级目录 2.2条件频率分布条件频率分布是频率分布的集合，每个频率分布有一个不同的条件。这个条件通常是文本的类别。当预料分为几类时，可以计算每个类别独立的领率分布。就可以研究类别之间的系统性差异。 2.2.1按照文本计数词汇 import nltk from nltk.corpus import brown cfd = nltk.ConditionalFreqDist( (genre,word) for genre in brown.categories() f

参与评论您还未登录，请先登录后发表或查看评论

NLTK 2 获得文本语料和词汇资源

power0405hf的专栏

07-07

1357

1 获得文本语料库1.1 古登堡语料库（Project Gutenberg）#nltk包含gutenberg的一小部分文本 import nltk nltk.corpus.gutenberg.fileids() emma=nltk.corpus.gutenberg.words('austen-emma.txt') print len(emma) #192427f

NLP常用工具包实战（3）NLTK工具包：英文数据分词、Text对象、停用词、词性标注、命名实体识别、数据清洗实例

haiwang_luo的博客

06-01

1214

NLTK 非常实用的文本处理工具，主要用于英文数据，历史悠久~ import nltk # nltk.download() # nltk.download('punkt') # nltk.download('stopwords') from nltk.tokenize import word_tokenize from nltk.text import Text from nltk.corpus import stopwords from nltk import pos_tag from nltk.chun

爬取《西游记》小说所有章节内容

lilinfengzzz的博客

12-20

1671

爬取《西游记》小说所有章节内容

《Python自然语言处理》学习笔记（三）

LucyGill的博客

01-12

2668

《Python自然语言处理》第二章学习笔记，包括书中习题

python nlp_【NLP】Python NLTK获取文本语料和词汇资源

weixin_39991148的博客

11-26

618

作者：白宁超2016年11月7日13:15:24摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项...

python之获得文本语料和词汇资源（2）

weixin_47237915的博客

03-21

545

2.1 获取文本语料库 2.1.1古腾堡语料库 import nltk print(nltk.corpus.gutenberg.fileids()) #简·奥斯丁的《艾玛》–emma，找出它包含多少词 emma = nltk.corpus.gutenberg.words('austen-emma.txt') print(len(emma)) #‘austen-emma.txt’ 该文本中surprize的上下文 emma = nltk.Text(nltk.corpus.gutenberg.words('

NLTK（语料库）

csdn_lzw的博客

05-21

5304

本系列博客为学习《用Python进行自然语言处理》一书的学习笔记。 2.1 P41 一、古腾堡语料库古腾堡语料库主要包含一些文学书籍。先看一个例子，查看古腾堡语料库包含的文本名称： import nltk nltk.corpus.gutenberg.fileids() Out[82]: [u'austen-emma.txt', u'austen-persuasion.txt',...

NLP自然语言处理002：NLTK中的语料和词汇资源

李玺

05-16

1603

在自然语言处理的实际项目中，通常要使用大量的语言数据或者语料库。 NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speechtag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Par...

Python与自然语言处理笔记二

secular_的博客

08-05

2191

第二章获得文本语料和词汇资源什么是有用的文本语料和词汇资源？怎么获取？哪些Python结构适合这个工作？怎么编写代码可以避免重复工作获取文本语料库古腾堡语料库 1、查看语料库 nltk.corpus.gutenberg.fileids() >>> import nltk >>> nltk.corpus.gutenberg.fileids() ['austen-emma.txt', 'austen-persuasion.t...

自然语言处理学习（二）使用nltk获取语料

adurey的博客

02-26

3174

一、语料库导入brown和gutenberg语料库。 import nltk from nltk.corpus import brown as cb from nltk.corpus import gutenberg as cg 二、查看语料库中的目录 dir(cb) #目录 dir(cg) 输出：三、语料库包含的种类 cb.categories() #种类四、语料库文件块名字 c...

NLTK常用操作和语料库

热门推荐

Jerry的安乐说

01-19

1万+

我的原文：http://blog.hijerry.cn/p/22281.html 安装NLTK 按照官方步骤：Installing NLTK 在安装完nltk后，通过下述命令可查看nltk版本： import nltk print nltk.__doc__ 输出： The Natural Language Toolkit (NLTK) is an open source P

【NLP】Python NLTK获取文本语料和词汇资源

weixin_30413739的博客

11-07

594

Python NLTK 获取文本语料和词汇资源作者：白宁超 2016年11月7日13:15:24 摘要：NLTK是由宾夕法尼亚大学计算机和信息科学使用python语言实现的一种自然语言工具包，其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, ...

NLTK中的语料资源

自然语言处理及大数据

02-12

1099

NTLK中不仅包括了算法程序，还有大量的语料资源。下面列举其中的一些语料资源 Gutenberg语料库该语料库是一个文学作品语料库，包含了若干篇英美著名作家的作品，语言风格偏书面语，语料资源如下： >>> import nltk >>> nltk.corpus.gutenberg.fileids() ['austen-emma.txt', 'au...

python自然语言处理学习笔记5——载入语料库

Iwanaabigdrumstick的博客

09-21

3283

gutenberg语料库花样电子书>>> import nltk >>> nltk.corpus.gutenberg.fileids() ['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kjv.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burges

改写《python数据挖掘入门与实践》第九章Gutenberg书籍下载代码

cc_suuif的博客

12-16

721

@python数据挖掘入门与实践_随书代码改写改写《python数据挖掘入门与实践》第九章Gutenberg书籍下载代码可能是gutenberg网站改版的缘故，随书附带的getdata.py代码执行会报错。个人将其进行了改写，可以实现下载utf-8编码的txt文件的功能。能力一般，水平有限，可优化的地方千千… 供参考! 代码片段利用package urllib来实现，有想法的话可以用pa...

路透社文章的文本数据分析与可视化

TensorFlowNews

10-07

878

作者|Manmohan Singh 编译|VK 来源|Towards Datas Science 当我要求你解释文本数据时，你会怎么做？你将采取什么步骤来构建文本可视化？本文将帮助你获得构建可视化和解释文本数据所需的信息。从文本数据中获得的见解将有助于我们发现文章之间的联系。它将检测趋势和模式。对文本数据的分析将排除噪音，发现以前未知的信息。这种分析过程也称为探索性文本分析(ETA)。运用K-means、Tf-IDF、词频等方法对这些文本数据进行分析。此外，ETA在数据清理过程中也很有用。我们还使用

NLTK载入自己的语料库

丧心病狂Loli控的博客

10-18

2013

加入自定义语料库(loli.txt)的完整文件路径如下： Users/samarua/Documents/NLP自然语言处理/自定义语料/loli.txt 语料内容假设为： loli loli loli PlaintextCorpusReader 纯文本语料库阅读器 from nltk.corpus import PlaintextCorpusReader corpus_root = r'/Users/samarua/Documents/NLP自然语言处理/自定义语料'

import re import string from nltk.corpus import stopwords from nltk.stem import PorterStemmer from nltk.tokenize import word_tokenize 解释下这几行的具体含义

最新发布

05-09

<think>好的，我现在需要回答用户关于自然语言处理中文本清洗代码所用库和函数的具体作用的问题。用户特别提到了re、string、nltk.corpus.stopwords、nltk.stem.PorterStemmer和nltk.tokenize.word_tokenize这些库和模块，需要解释它们在文本清洗中的用途。首先，我要回忆一下这些库的基本功能。用户之前已经提供了示例代码，我需要结合这些代码来解释每个部分的作用。同时，用户引用了之前的回答中的内容，可能需要参考之前的引用内容来确保一致性。从引用[1]中，用户提到了PorterStemmer的作用是词干提取，比如将fishing变成fish。引用[2]中展示了停用词和标点符号的去除，使用了nltk的stopwords和word_tokenize，以及string模块处理标点。引用[3]则涉及nltk的词性标注，但当前问题可能不需要这部分，但需要确认是否有相关内容需要提及。用户的问题是关于代码中每个库和函数的具体作用，所以需要逐一分解： 1. re模块：用于正则表达式操作，处理文本中的特殊字符和模式匹配。 2. string模块：提供字符串常量和处理函数，比如标点符号集合。 3. nltk.corpus.stopwords：停用词列表，用于过滤常见无意义词汇。 4. nltk.stem.PorterStemmer：词干提取，将词汇还原为词根形式。 5. nltk.tokenize.word_tokenize：分词功能，将文本拆分为单词或标记。接下来，需要详细解释每个部分在文本清洗流程中的具体应用。例如，re.sub用于替换或删除不需要的字符，stopwords用于过滤停用词，PorterStemmer进行词干提取以减少词汇变形的影响，word_tokenize将文本分割成单词等。同时，需要注意用户可能对中英文处理的不同有疑问，比如停用词默认是英文，处理中文时需要自定义。这在之前的引用[2]中已经提到，所以需要在解释时指出这一点，并给出建议。另外，用户可能想知道这些步骤的顺序和必要性，比如为什么先处理特殊字符再分词，停用词过滤和词干提取的顺序等。需要简要说明流程的逻辑。还需要注意代码中的实际例子，比如在示例代码中，正则表达式去除了特殊字符，转换为小写，然后分词，接着过滤停用词和词干提取。每个步骤的作用需要明确说明。可能还需要提到异常处理部分，但用户主要关注的是库和函数的作用，所以这部分可能不需要深入，除非有相关函数涉及。最后，要确保回答结构清晰，分点解释每个库和函数，并说明它们在文本清洗中的具体应用和重要性。同时，结合用户提供的引用内容，保持回答的一致性和准确性。</think>### Python文本清洗工具库详解以下是自然语言处理文本清洗中关键库和函数的作用解析，结合代码示例说明其在流程中的具体应用： #### 一、正则表达式模块 (`re`) **核心作用**：模式匹配与替换 - **文本清洗应用**： ```python text = re.sub(r'[^\w\s]|_', '', text) # 删除特殊符号 ``` - 删除URL链接：`re.sub(r'http\S+', '', text)` - 处理数字变形：`re.sub(r'\d+', '<NUM>', text)`（将数字统一标记） - 清除HTML标签：`re.sub(r'<.*?>', '', text)` - **正则符号说明**： - `\w` 匹配字母/数字/下划线 - `\s` 匹配空白字符 - `^` 表示取反集合 #### 二、字符串处理模块 (`string`) **核心作用**：提供标准字符集合 - **标点处理应用**： ```python text = text.translate(str.maketrans('', '', string.punctuation)) ``` - `string.punctuation` 包含所有英文标点符号：`!"#$%&'()*+,-./:;<=>?@[\]^_`{|}~` - **中文适配**：需自定义符号集 `chinese_punc = '“”‘’（），。！？；：·《》【】`[^2] #### 三、停用词处理 (`nltk.corpus.stopwords`) **核心作用**：过滤无意义高频词 - **应用示例**： ```python filtered_words = [w for w in words if w not in stop_words] ``` - **英文默认列表**：包含"the", "is", "and"等179个词 - **中文适配方案**： ```python cn_stopwords = set(line.strip() for line in open('chinese_stopwords.txt')) ``` #### 四、词干提取器 (`nltk.stem.PorterStemmer`) **核心作用**：词汇形态归一化 - **处理示例**： ```python stemmer.stem('running') → 'run' stemmer.stem('happily') → 'happili' ``` - **算法特性**：基于Porter算法逐步剥离后缀，可能产生非常规词根 - **替代方案**：`WordNetLemmatizer`需要词性标注支持，结果更准确[^1] #### 五、分词器 (`nltk.tokenize.word_tokenize`) **核心作用**：文本结构化处理 - **处理差异**： ```python word_tokenize("Can't stop!") → ['Ca', "n't", 'stop', '!'] # 英文智能分割 word_tokenize("自然语言处理") → ['自然', '语言', '处理'] # 中文需安装分词器 ``` - **中文增强方案**： ```python import jieba jieba.lcut("自然语言处理") # ['自然语言', '处理'] ``` #### 六、组合应用流程典型清洗流程与工具对应关系： ``` 原始文本 → re.sub（清洗符号） → string.lower（标准化） → word_tokenize（结构化） → stopwords（降噪） → PorterStemmer（归一化） ``` #### 七、工具选型建议 | 工具类型 | 英文处理推荐 | 中文处理推荐 | |-----------------|---------------------|---------------------| | 分词工具 | word_tokenize | jieba/pkuseg | | 停用词表 | nltk.corpus.stopwords | 百度/哈工大停用词表 | | 词形处理 | PorterStemmer | 同义词词林 | 通过合理组合这些工具，可以构建适应不同语种和业务场景的文本清洗流水线。实际应用中建议根据语料特点调整处理顺序，例如法律文本需优先处理特殊符号，社交媒体文本需加强网络用语过滤。