python自然预言处理_(一)python与NLP

本文详细介绍了Python中文本处理的基本操作,包括使用链表表示文本、理解词标识符与词类型的区别、获取文本词汇表的方法、以及如何对文本进行过滤、计数等操作。此外,还阐述了频率分布的概念及其在文本分析中的应用。

一错误

    1\:

>>> fdist1=FreqDist(text1)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'FreqDist' is not defined

处理办法:重新倒入

 

from nltk import * 


检查词汇表中的词是否大于15

 V=set(text1)

 long_words=[w for w in V if len(w) >15]
长度超过7并且出现次数大于7

fdist5=FreqDist(text5)
 sorted([w for w in set(text5) if len(w)>7 and fdist5[w]>7])

总结:

 
在 Python 中文本用链表来表示:['Monty', 'Python']。我们可以使用索引、分片和 l
en()函数对链表进行操作。
词“token”(标识符)是指文本中给定词的特定出现;词“type”(类型)则是指词作为一
个特定序列字母的唯一形式。我们使用 len(text)计数词的标识符,使用 len(set(text))
计数词的类型。
我们使用 sorted(set(t))获得文本 t 的词汇表。
我们使用[f(x) for x in text]对文本的每一项目进行操作。
为了获得没有大小写区分和忽略标点符号的词汇表,我们可以使用 set([w.lower() f
or w in text if w.isalpha()])。
我们使用 for 语句对文本中的每个词进行处理,例如 for win t:或者 for word in te
xt:。后面必须跟冒号和一块在每次循环被执行的缩进的代码。
我们使用 if 语句测试一个条件: if len(word)<5:。后面必须跟冒号和一块仅当条件为
真时执行的缩进的代码。
频率分布是项目连同它们的频率计数的集合(例如:一个文本中的词与它们出现的频
率)。
函数是指定了名字并且可以重用的代码块。函数通过 def 关键字定义,例如在 def mu
lt( x , y )中 x 和 y 是函数的参数,起到实际数据值的占位符的作用。
函数是通过指定它的名字及一个或多个放在括号里的实参来调用,就像这样:mult(3,
4)或者 len(text1)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值