这个例子用来比较两个城市的人在用词上是否不同
使用朴素贝叶斯来发现低于相关的用词
- 收集数据:从RSS源收集内容,这里需要对RSS源构建一个接口
- 准备数据:将文本文件解析成词条向量
- 分析数据:检查词条确保解析的正确性
- 训练算法:训练朴素贝叶斯
- 测试算法:观察错误率,确保分类器可用。可以修改切分程序,以降低错误率,提高分类结果
- 使用算法:构建一个完整的程序,封装所有内容。给定两个RSS源,该程序会显示最常用的共公词。
收集数据:导入RSS源
利用RSS,数据可以很容易得到。
现在所需的是一个RSS阅读器,Universal Feed Parser是Python中最常用的RSS库:
(base) C:\Users\birdguan>conda install feedparser
Solving environment: done
## Package Plan ##
environment location: C:\Users\birdguan\Anaconda3
added / updated specs:
- feedparser
The following packages will be downloaded:
package | build
---------------------------|-----------------
openssl-1.0.2o | h8ea7d77_0 5.4 MB https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
feedparser-5.2.1 | py36_1 81 KB https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
conda-4.6.4 | py36_0 1.7 MB https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
certifi-2018.4.16 | py36_0 143 KB https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
------------------------------------------------------------
Total: 7.3 MB
The following NEW packages will be INSTALLED:
feedparser: 5.2.1-py36_1 https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
The following packages will be UPDATED:
ca-certificates: 2018.03.07-0 defaults --> 2018.03.07-0 https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
certifi: 2018.4.16-py36_0 defaults --> 2018.4.16-py36_0 https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
conda: 4.5.4-py36_0 defaults --> 4.6.4