1,语料库的获取
>>>import nltk
>>>nltk.corpus.gutenberg.fileids()
['austen-emma.txt', 'austen-persuasion.txt', 'austen-sense.txt', 'bible-kj
v.txt', 'blake-poems.txt', 'bryant-stories.txt', 'burgess-busterbrown.txt'
, 'carroll-alice.txt', 'chesterton-ball.txt', 'chesterton-brown.txt', 'che
sterton-thursday.txt', 'edgeworth-parents.txt', 'melville-moby_dick.txt',
'milton-paradise.txt', 'shakespeare-caesar.txt', 'shakespeare-hamlet.txt',
'shakespeare-macbeth.txt', 'whitman-leaves.txt']
emma = nltk.corpus.gutenberg.words('austen-emma.txt')
len(emma)
获取的是一些txt文件,好像是一些作者写的文章,如果要用第一章的text1.concordance()这个函数的话,得经过处理
>>>emma = nltk.Text(nltk.corpus.gutenberg.words('austen-emma.txt'))
>>>emma.concordance('surprize')
获取文本语料库
导入包
>>>from nltk.corpus import gutenberg
>>>guitenberg.fileids()
执行得出gutenberg得所有得文件,可以进行遍历得到每个文件然后进行词汇的获取

本文介绍了如何使用Python的nltk库进行自然语言处理,包括获取语料库,如Gutenberg项目的txt文件,并通过text1.concordance()函数进行分析。此外,还讲解了如何利用tokenize包的TreebankWordTokenizer进行句子切分,以及标准化处理的初步步骤,为后续的相似性度量奠定基础。
最低0.47元/天 解锁文章
2041

被折叠的 条评论
为什么被折叠?



