NLTK

一、安装

到NLTK主页或从下面的链接中下载和自己机器上python版本相应的安装包。

http://code.google.com/p/nltk/downloads/list

 

下载的是egg文件用下面命令安装:

easy_install nltk-?.?b4-py?.?.egg

 

下载的是zip文件,解压后用下面命令安装:

sudo python setup.py install

 

 

二、测试

在python命令行终端运行:
>>> from nltk.stem.porter import PorterStemmer
>>> from nltk.tokenize.regexp import WordTokenizer
>>> text = WordTokenizer().tokenize("And now for something . completely different")
>>> for i in text:
... print PorterStemmer().stem_word(i)
...
And
now
for
someth
complet
differ





Resources
http://nltk.googlecode.com/svn/trunk/doc/api/index.html

http://www.ibm.com/developerworks/library/l-cpnltk.html?S_TACT=105AGX52&S_CMP=cn-a-l
NLTK(Natural Language Toolkit)是一个强大的Python库,可用于自然语言处理任务。以下是一些关于NLTK的相关信息: ### 离线下载与安装 可以离线下载安装NLTKnltk_data数据包。需要将整包下载下来,解压出其中的package文件夹,将其挪到对应的nltk搜索目录下,并把packages文件夹重新命名为nltk_data [^1]。 ### 功能应用 - **点互信息(PMI)计算**:PMI可用于衡量两变量之间的相关性。可以调用Pythonnltk库来计算两个词的PMI,也能根据词语的共现频次表自定义PMI函数计算。此外,还可使用`nltk.download('omw-1.4')`下载'omw - 1.4'文件 [^2]。 ```python import nltk # 下载omw-1.4 nltk.download('omw-1.4') ``` - **文本特征提取**:NLTK提供了文本特征提取功能。掌握相关特征提取方法,能为文本分类、信息检索、情感分析等自然语言处理任务奠定基础。NLTK还可与其他工具如`CountVectorizer`和`TfidfVectorizer`结合,实现更强大且易用的文本数据处理和分析功能 [^3]。 ```python from sklearn.feature_extraction.text import CountVectorizer, TfidfVectorizer import nltk # 示例文本数据 texts = ["This is the first sentence.", "This sentence is the second sentence."] # 使用CountVectorizer count_vectorizer = CountVectorizer() count_matrix = count_vectorizer.fit_transform(texts) # 使用TfidfVectorizer tfidf_vectorizer = TfidfVectorizer() tfidf_matrix = tfidf_vectorizer.fit_transform(texts) ``` - **词典资源**:`nltk.corpus.names`包含8000个按性别分类的名字。以下是一个简单示例,展示如何分析男女名字最后一个字母的分布情况 [^4]。 ```python import nltk names = nltk.corpus.names cfd = nltk.ConditionalFreqDist( (fileid, name[-1]) for fileid in names.fileids() for name in names.words(fileid) ) # 若要可视化 cfd.plot() ```
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值