python自然预言处理_(一)python与NLP

最新推荐文章于 2024-09-09 21:12:32 发布

原创最新推荐文章于 2024-09-09 21:12:32 发布 · 781 阅读

0 ·

CC 4.0 BY-SA版权

NLP/自然语言处理专栏收录该内容

3 篇文章

订阅专栏

本文详细介绍了Python中文本处理的基本操作，包括使用链表表示文本、理解词标识符与词类型的区别、获取文本词汇表的方法、以及如何对文本进行过滤、计数等操作。此外，还阐述了频率分布的概念及其在文本分析中的应用。

一错误

1\:

>>> fdist1=FreqDist(text1)
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
NameError: name 'FreqDist' is not defined

处理办法:重新倒入

from nltk import *

检查词汇表中的词是否大于15

 V=set(text1)

 long_words=[w for w in V if len(w) >15]
长度超过7并且出现次数大于7

fdist5=FreqDist(text5)
 sorted([w for w in set(text5) if len(w)>7 and fdist5[w]>7])

总结:

在 Python 中文本用链表来表示:['Monty', 'Python']。我们可以使用索引、分片和 l
en()函数对链表进行操作。
词“token”(标识符)是指文本中给定词的特定出现;词“type”(类型)则是指词作为一
个特定序列字母的唯一形式。我们使用 len(text)计数词的标识符,使用 len(set(text))
计数词的类型。
我们使用 sorted(set(t))获得文本 t 的词汇表。
我们使用[f(x) for x in text]对文本的每一项目进行操作。
为了获得没有大小写区分和忽略标点符号的词汇表,我们可以使用 set([w.lower() f
or w in text if w.isalpha()])。
我们使用 for 语句对文本中的每个词进行处理,例如 for win t:或者 for word in te
xt:。后面必须跟冒号和一块在每次循环被执行的缩进的代码。
我们使用 if 语句测试一个条件: if len(word)<5:。后面必须跟冒号和一块仅当条件为
真时执行的缩进的代码。
频率分布是项目连同它们的频率计数的集合(例如:一个文本中的词与它们出现的频
率)。
函数是指定了名字并且可以重用的代码块。函数通过 def 关键字定义,例如在 def mu
lt( x , y )中 x 和 y 是函数的参数,起到实际数据值的占位符的作用。
函数是通过指定它的名字及一个或多个放在括号里的实参来调用,就像这样:mult(3,
4)或者 len(text1)。