学习资源来源:容大教育,致以诚挚的谢意。
重新编辑:潇洒坤
jieba中文叫做结巴,是一款中文分词工具,官方文档链接:https://github.com/fxsjy/jieba
TfidfVectorizer中文叫做词袋向量化模型,是用来文章内容向量化的工具,官方文档链接:http://sklearn.apachecn.org/cn/0.19.0/modules/generated/sklearn.feature_extraction.text.TfidfVectorizer.html
LogisticRegression中文叫做逻辑回归模型,是一种基础、常用的分类方法。
建议读者安装anaconda,这个集成开发环境自带了很多包。
到2018年9月1日仍为最新版本的anaconda下载链接: https://pan.baidu.com/s/1pbzVbr1ZJ-iQqJzy1wKs0A 密码: g6ex
官网下载地址:https://repo.anaconda.com/archive/Anaconda3-5.2.0-Windows-x86_64.exe
下面代码的开发环境为jupyter notebook,使用在jupyter notebook中的截图表示运行结果。
0.打开jupyter
在桌面新建文件夹命名为基于TfidfVectorizer的文档分类,如下图所示:

image.png
打开 基于TfidfVectorizer的文档分类文件夹,在按住Shift键的情况下,点击鼠标右键,出现如下图所示。
选择 在此处打开PowerShell窗口,之后会在此路径下打开PowerShell。

image.png
在PowerShell中输入命令并运行: jupyter notebook

image.png
PowerShell运行命令后,会自动打开网页,点击如下图所示网页中的按钮:

image.png
代码文件重命名为 tfidfVectorizerTest,重命名按钮位置如下图所示: