Python网络数据采集10(译者:哈雷)

本文介绍自然语言处理中nltk工具包的应用,包括状态转换、词性分析等关键技术,并提供Python环境下nltk的安装及使用示例。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

第八章 自然语言的读写
本章的前半部分我感觉跟普通的数据处理过程差不多,然后讲了马尔科夫链的状态转换,最后讲述了nltk(自然语言处理包)的使用,对于做自然语言处理的同学们来说,nltk的重要性就无需赘言了,本文也不打算详细的叙述其使用,建议同学们系统的学习一下。下面着重讲解nltk,python2.7下安装如下

python -m nltk.downloader all  

在python3.0下安装如下

pip3 install nltk #当然python2.7下也可以用pip2 install nltk 来安装nltk  

在使用nltk包的过程中,由于nltk包很大,所以不建议全部导入,当然如果工程大,涉猎广,就必须全部导入了。安装完成以后,就可以进行语言分析啦。例如

from nltk import ngrams                                                                                  
from nltk import FreqDist                                                                                
from nltk.book import *                                                                                  
fourgrams = ngrams(text6, 4)#每四个作为i一个元素                                                                           
fourgramsDist = FreqDist(fourgrams)                                                                     
a=fourgramsDist[("father", "smelt", "of", "elderberries")]#这四个单词同时出现的次数  
print (fourgramsDist.most_common(10))#最常见的10个元素                                                                    
print(a)  

书中还讲述了利用nltk中的词性分析来处理自然语言(英文),读者可以自行查阅,不过我个人认为一般情况下用不到。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值