使用朴素贝叶斯分类器从个人广告中获取区域倾向

这个例子用来比较两个城市的人在用词上是否不同

使用朴素贝叶斯来发现低于相关的用词

  1. 收集数据:从RSS源收集内容,这里需要对RSS源构建一个接口
  2. 准备数据:将文本文件解析成词条向量
  3. 分析数据:检查词条确保解析的正确性
  4. 训练算法:训练朴素贝叶斯
  5. 测试算法:观察错误率,确保分类器可用。可以修改切分程序,以降低错误率,提高分类结果
  6. 使用算法:构建一个完整的程序,封装所有内容。给定两个RSS源,该程序会显示最常用的共公词。

收集数据:导入RSS源 

利用RSS,数据可以很容易得到。

现在所需的是一个RSS阅读器,Universal Feed Parser是Python中最常用的RSS库:

(base) C:\Users\birdguan>conda install feedparser
Solving environment: done

## Package Plan ##

  environment location: C:\Users\birdguan\Anaconda3

  added / updated specs:
    - feedparser


The following packages will be downloaded:

    package                    |            build
    ---------------------------|-----------------
    openssl-1.0.2o             |       h8ea7d77_0         5.4 MB  https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    feedparser-5.2.1           |           py36_1          81 KB  https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    conda-4.6.4                |           py36_0         1.7 MB  https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    certifi-2018.4.16          |           py36_0         143 KB  https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    ------------------------------------------------------------
                                           Total:         7.3 MB

The following NEW packages will be INSTALLED:

    feedparser:      5.2.1-py36_1      https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main

The following packages will be UPDATED:

    ca-certificates: 2018.03.07-0      defaults                                                --> 2018.03.07-0      https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    certifi:         2018.4.16-py36_0  defaults                                                --> 2018.4.16-py36_0  https://mirrors.tuna.tsinghua.edu.cn/anaconda/pkgs/main
    conda:           4.5.4-py36_0      defaults                                                --> 4.6.4
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值