利用NLTK进行文本数据分析
1. 文本提取与结构化
在处理文本时,我们可以使用NLTK(Natural Language Toolkit)库来提取和结构化文本数据。以莎士比亚的《麦克白》为例,我们可以使用 nltk.corpus.gutenberg.sents()
函数来获取结构化的句子数组。
import nltk
macbeth_sents = nltk.corpus.gutenberg.sents('shakespeare-macbeth.txt')
print(macbeth_sents[:5])
输出结果如下:
[['[', 'The', 'Tragedie', 'of', 'Macbeth', 'by', 'William', 'Shakespeare', '1603', ']'], ['Actus', 'Primus', '.'], ['Scoena', 'Prima', '.'], ['Thunder', 'and', 'Lightning', '.'], ['Enter', 'three', 'Witches', '.']]
这个结果展示了文本的结构化形式,每个句子作为一个元素,而每个句子又由单词组成的数组构成。
2. 在NLTK语料库中搜索单词
当我们有一个NLTK语料库(即从文本中提取的单词数组)时,最基本的操作之一就是在其中进行搜索。NLTK提供了几种搜索单词的方法。