安装nltk
pip install nltk
打开下载器nltk.download()

其中包括各种语料库,分词模型等
我们下载brown语料包和punkt模型
下载完后可以导入语料库
英文分词
然后对句子进行分词,使用word_tokennize方法的前提是必须要安装分词模型,如punkt
分词后的结果是列表
from nltk.corpus import brown

中文分词
import jieba
一般中文都是用jieba分词
可以发现jieba分词之后返回的是一个生成器,而不是列表
两种模式:全模式,精确模式
全模式:尽可能的提取多的单词

本文介绍了如何安装和使用nltk进行英文分词,包括下载brown语料库和punkt模型。同时,讨论了中文分词通常使用jieba,并比较了全模式和精确模式。此外,还涉及词干提取的几种算法,如PorterStemmer和LancasterStemmer,以及词性标注和停用词的处理。预处理流程包括分词、词性归并和去停用词。
最低0.47元/天 解锁文章
322

被折叠的 条评论
为什么被折叠?



