朴素贝叶斯

朴素贝叶斯

概述:

  • 优点:数据较少的情况下仍然有效,可以处理多类别问题
  • 缺点: 对于输入数据的准备方式较敏感
  • 适用数据类型:标称型数据

标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)
数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)

数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)

贝叶斯决策理论核心

选择具有最高概率的决策

条件概率

条件概率的计算公式如下所示:
P ( g r a y |bucketB) = p (gray a n d b u c k e t B ) / P ( b u c k e t B )
另一个有效计算条件概率的方法是贝叶斯准则
已知P(x|c),要求P(c|x):
在这里插入图片描述

使用条件概率来分类

真正需要比较的是P(c1|x,y)和P(c2|x,y)
P(c1|x,y):给定某个由x、y表示的数据点,那么该数据点来自类别c1的概率是多少?
P(c2|x,y):数据点x、y来自类别c2的概率又是多少?

使用朴素贝叶斯进行文本分类

一般过程:

(1)收集数据 :可以使用任何方法。本章使用RSS源。
(2)准备数据:需要数值型或者布尔型数据。
(3)分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
(4)训练算法:计算不同的独立特征的条件概率。
(5)测试算法:计算错误率。
(6)使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴
素贝叶斯分类器,不一定非要是文本。

由统计学知,如果每个特征需要N个样本,那么对于10个特征就需要N10个样本,对于包含1000个特征的词汇表将需要N1000个样本。可以看到,所需要的样本数量随着特征数目增大而迅速增长。所谓维数灾难,可通过降维等方法解决。
如果特征之间相互独立,那么样本数就可以从N1000减少到1000*N。


参考:

  • 《机器学习实战》
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值