使用朴素贝叶斯分类器从个人广告中获取区域倾向-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_30241709/article/details/87897821

这个例子用来比较两个城市的人在用词上是否不同

使用朴素贝叶斯来发现低于相关的用词

收集数据：从RSS源收集内容，这里需要对RSS源构建一个接口

准备数据：将文本文件解析成词条向量

分析数据：检查词条确保解析的正确性

训练算法：训练朴素贝叶斯

测试算法：观察错误率，确保分类器可用。可以修改切分程序，以降低错误率，提高分类结果

使用算法：构建一个完整的程序，封装所有内容。给定两个RSS源，该程序会显示最常用的共公词。

收集数据：导入RSS源

利用RSS，数据可以很容易得到。

现在所需的是一个RSS阅读器，Universal Feed Parser是Python中最常用的RSS库：

(base) C:\Users\birdguan>conda install feedparser
Solving environment: done

## Package Plan ##

  environment location: C:\Users\birdguan\Anaconda3

  added / updated specs:
    - feedparser


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    openssl-1.0.2o             |       h8ea7d77_0         5.4 MB  https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    feedparser-5.2.1           |           py36_1          81 KB  https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    conda-4.6.4                |           py36_0         1.7 MB  https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    certifi-2018.4.16          |           py36_0         143 KB  https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    ------------------------------------------------------------
                                           Total:         7.3 MB

The following NEW packages will be INSTALLED:

    feedparser:      5.2.1-py36_1      https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main

The following packages will be UPDATED:

    ca-certificates: 2018.03.07-0      defaults                                                --> 2018.03.07-0      https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    certifi:         2018.4.16-py36_0  defaults                                                --> 2018.4.16-py36_0  https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    conda:           4.5.4-py36_0      defaults                                                --> 4.6.4