《pyhton自然语言处理》学习笔记(一)

本文分享了作者在非结构化数据处理项目中,利用Python进行自然语言处理的学习过程。从Anaconda安装到Nltk库的使用,详细记录了如何解决代码错误,包括数据文件的正确放置位置,以及如何使用Nltk进行文本分析,如搜索特定词汇、绘制词频分布图等。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

前言
  最近在做的一个项目,非结构化数据处理,然后从自然语言处理入手,开始学习一下如果使用python进行自然语言的处理

参考资料:https://github.com/wnma3mz/Nltk_Study
https://wnma3mz.github.io/hexo_blog/2018/05/13/《Python自然语言处理》阅读笔记(一)/

首先下载了anaconda,然后按照说明下载了数据文件
这个数据文件,一开始并不知道要拷到哪里去,但是尝试了输入了

import nltk
from nltk.book import *

之后,发现了报错

在这里插入图片描述然后我在download之后顺其根源发现了需要拷贝的地址

这样以后,找到了需要拷贝的目录,将数据文件复制进去,这样就可以运行我需要的操作了~

然后再运行以上代码

# 导入nltk模块
import nltk
# 导入基本语料集(不需要额外下载),包含text1到text9变量,可以直接输出这些变量
from nltk.book import *

# 搜索文本。这里表示找到"monstrous"所包含的句子,并且输出上下文
text1.concordance("monstrous")

# 搜索文本出现在相似的上下文中
text1.similar("monstrous")

# 搜索两个及两个以上共同词的上下文
text2.common_contexts(["monstrous", "very"])

# 画一张离散图表示这些词出现在文本中的位置,输出见下图
text4.dispersion_plot(["citizens", "democracy", "freedom", "duties", "America"])

# 基于文本,随机生成一些文本
text3.generate()

最后一句话 又遇到了报错
在这里插入图片描述
看上去是缺少参数
于是我在括号里面添加参数,没有任何变化…

在这里插入图片描述
并不知道发生了什么。。。。愣住。。。。
接下来继续分析text

# 有序字典,按词频从高到低排序
fdist1 = FreqDist(text1)
# 选出词频最高的50个词
 fdist1.keys()[:50]
# 某个词出现的频数
fdist1['whale']

# text1中词频最高的50个单词,进行绘图,输出见下图
fdist1.plot(50, cumulative=True)
# text1中只出现过一次的单词
fdist1.hapaxes()

在这里插入图片描述

然后其实只要修改添加一个list就行了

list(fdist1.keys())[:50]

在这里插入图片描述

可能是因为版本的缘故,又一次遇到需要list的地方
在这里插入图片描述

修改如下
在这里插入图片描述

对于机器人对话的命令,发现根本停不下来
在这里插入图片描述
…崩溃
在这里插入图片描述


好吧,今天的学习到此结束
每日一吹,咖啡鸡天下第一!

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值