本篇博客我们将介绍使用NLTK对英文文本进行一些基本处理,之后我们还会学习一些更高级的模型或方法,不过这些基本处理要熟练掌握,因为他们可以对我们的数据进行一些预处理,作为更高级模型或工具的输入。
目录
1.NLTK简介
2.英文Tokenization(标记化/分词)
import nltk
from nltk import word_tokenize, sent_tokenize
import matplotlib
%matplotlib inline
matplotlib.use('Agg')
# 读入数据
# 把文本读入到字符串中
with open('./data/text.txt','r') as f:
corpus = f.read()
# 查看类型
print("corpus的数据类型为:",type(corpus))
#对文本进行断句 返回一个列表
#nltk.download('punkt')
sentences = sent_tokenize(corpus)
print(sentences)
# 对文本进行分词 返回一个列表
words = word_tokenize(corpus)
print(words[:20])
3.停用词
关于机器学习中停用词的产出与收集方法,大家可以参见