python自然语言处理-学习笔记（二）之nltk包常用的功能

最新推荐文章于 2022-09-09 21:30:00 发布

原创

最新推荐文章于 2022-09-09 21:30:00 发布 · 853 阅读

4 ·

CC 4.0 BY-SA版权

文章标签：

#python #自然语言处理

本文介绍了如何使用Python的nltk库进行自然语言处理，包括获取语料库，如Gutenberg项目的txt文件，并通过text1.concordance()函数进行分析。此外，还讲解了如何利用tokenize包的TreebankWordTokenizer进行句子切分，以及标准化处理的初步步骤，为后续的相似性度量奠定基础。

1，语料库的获取

>>>import nltk
>>>nltk.corpus.gutenberg.fileids()

['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kj

v.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt'

, 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt', 'che

sterton-thursday.txt', 'edgeworth-parents.txt', 'melville-moby_dick.txt',

'milton-paradise.txt', 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt',

'shakespeare-macbeth.txt', 'whitman-leaves.txt']

emma = nltk.corpus.gutenberg.words('austen-emma.txt')

len(emma)

获取的是一些txt文件，好像是一些作者写的文章，如果要用第一章的text1.concordance()这个函数的话，得经过处理

>>>emma = nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))

>>>emma.concordance('surprize')

获取文本语料库

导入包

>>>from nltk.corpus import gutenberg
>>>guitenberg.fileids()

执行得出gutenberg得所有得文件，可以进行遍历得到每个文件然后进行词汇的获取

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

pyswt

关注关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

【自然语言处理】NLTK库的概念和作用

酒酿小圆子呀～

10-24

2041

Natural Language Toolkit (NLTK)是一个广泛使用的Python自然语言处理工具库，由Steven Bird、Edward Loper和Ewan Klein于2001年发起开发。NLTK的目的是为自然语言处理（NLP）提供一个完整的、易于使用的工具集，使研究人员、学生和开发人员能够更加轻松地进行NLP研究和开发。

python自然语言处理-学习笔记（一）之nltk入门

pyswt的博客

01-17

1159

nltk学习第一章一，入门 1，nltk包的导入和报的下载 import nltk nltk.download() （eg: nltk.download(‘punkt’),也可以指定下载那个包） 2，book图书集，是一些数据， from nltk.book import * *** Introductory Examples for the NLTK Book *** Loadin...

参与评论您还未登录，请先登录后发表或查看评论

python机器学习——NLTK及分析文本数据（自然语言处理基础）

最新发布

08-17

Python机器学习与自然语言处理学习笔记深入探讨了如何利用Python语言进行机器学习和自然语言处理（NLP）的研究和应用。在当今数据驱动的世界，这两种技术已成为数据科学和人工智能领域的重要组成部分。机器学习是...

python学习笔记，包含web开发和逆向、安卓逆向、验证码处理、自然语言处理(NLP)、scrapy分布式爬取等

02-20

在"python学习笔记"中，我们可以深入探讨多个重要领域，包括Web开发、逆向工程、Android逆向分析、验证码处理、自然语言处理（NLP）以及Scrapy框架的分布式爬虫。首先，Web开发通常涉及到构建网站和应用程序。...

Python 自然语言处理笔记.md

08-17

### Python 自然语言处理知识点详解 #### 一、自然语言处理概述 - **定义与重要性**： - 自然语言处理（Natural Language Processing，简称NLP）是人工智能的一个核心分支，专注于使计算机能够理解、解释和生成...

python---nltk工具包安装

在职后端开发工程师的学习笔记

06-18

先在pycharm里安装nltk cmd进入Python输入 import nltk nltk.download()如果下载失败在github上下载语料库：https://github.com/nltk/nltk_data 将里面的packages文件名改成nltk_data(里面的压缩包都要解压) ...

Python的Nltk包安装使用

leexurui的专栏

08-29

4023

Python的Nltk包安装方法 http://www.nltk.org/install.html 使用 >>> import nltk >>> nltk.download() nltk.download() 太慢了，所以我先手动下载好，解压，放到/usr/local/share/nltk_data 目录下 [root@10-10-198-186 nl

【原】Python NLP实战之一：环境准备

iteye_19939的博客

05-07

635

最近正在学习Python，看了几本关于Python入门的书和用Python进行自然语言处理的书，如《Python编程实践》、《Python基础教程》（第2版）、《Python自然语言处理》（影印版）。因为以前是学Java的，有着良好的面向对象的思维方式，所以刚开始看Python的语法，觉得Pyhon太随意了，很别扭，有不正规之嫌。而且，Python自己也正在向面向对象（OO）靠拢。但是，后来看到P...

AI与Python - NLTK包

weixin_42238387的博客

04-04

485

在本章中，我们将学习如何开始使用Natural Language Toolkit Package。条件如果我们想用自然语言处理来构建应用程序，那么上下文的变化就会变得非常困难。上下文因素影响机器理解特定句子的方式。因此，我们需要使用机器学习方法开发自然语言应用程序，以便机器也能理解人类理解上下文的方式。为了构建这样的应用程序，我们将使用名为NLTK（Natural Language Tool...

Python安装nltk以及里面一些包的使用

心有猛虎细嗅蔷薇

08-16

4604

安装nltk：pip install nltk 不过大伙安装完nltk之后会发现一个问题，就是有些东西不能用，就比如分词的包现在就来解决这个问题在pycharm里import nltk 下面打一行nltk.download() 然后运行，在下面的运行框输出那里打一个d回车然后打punkt（分词包）

nltk介绍

realjc的博客

03-31

1155

NLTK是一个用于自然语言处理和文本分析的综合性python库。它提供了一些常用的语料库：比如， stopwords:停用词库 punkt:包含了很多预先训练好的tokenize模型可以通过下面的命令下载它们： import nltk nltk.download('stopwords') nltk.download('punkt') ...

python Nltk 自然语言安装包安装教程

星海一哥的博客

01-06

2362

第一步：如果只是简单安装PythonIDE工具需要执行以下操作。首先去http://nltk.org/install.html下载相关的安装程序，然后在cmd窗口中，进入到python的文件夹内的 Scripts内，运行easy_install pip 安装PyYAML and NLTK：pip install

自然语言处理库——NLTK

满腹的小不甘

05-09

7691

NLTK（www.nltk.org）是在处理预料库、分类文本、分析语言结构等多项操作中最长遇到的包。其收集的大量公开数据集、模型上提供了全面、易用的接口，涵盖了分词、词性标注(Part-Of-Speech tag, POS-tag)、命名实体识别(Named Entity Recognition, NER)、句法分析(Syntactic Parse)等各项 NLP 领域的功能。 ...

NLTK（1.2）NLTK简介

todingdong的博客

10-23

4515

文章目录NLTK库简介NLTK库重要模块及功能安装NLTK库 NLTK库简介 Natural Language Toolkit（简称NLTK库），自然语言处理工具包，是一个当下流行的，用于自然语言处理的Python 库。 NLTK 包含大量的软件、数据和文档，所有这些都可以从http://nltk.org/ 免费下载。 NLTK 创建于2001 年，最初是宾州大学计算机与信息科学系计算语言学课程的...

NLTK库初接触

c8241998的博客

09-04

1795

NLTK 库安装 pip install nltk 安装书籍 import nltk nltk.download() 加载书籍 from nltk.book import * 搜索文本从text1中检索20个包含former的语句上下文 text1.concordance("former") 搜索相关词 text1.similar("ship") 查看某个词在文章...

Python自然语言处理入门：NLTK与文本分析工具详解

本文件标题为“word分词器java源码-A-Smattering-of-NLP-in-Python:Python中自然语言处理编程的非常简要介绍”，虽然标题中提到了“word分词器java源码”，但实际上该资源的核心内容并非关于Java实现的分词器，而是...