朴素贝叶斯
概述:
- 优点:数据较少的情况下仍然有效,可以处理多类别问题
- 缺点: 对于输入数据的准备方式较敏感
- 适用数据类型:标称型数据
标称型:标称型目标变量的结果只在有限目标集中取值,如真与假(标称型目标变量主要用于分类)
数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)
数值型:数值型目标变量则可以从无限的数值集合中取值,如0.100,42.001等 (数值型目标变量主要用于回归分析)
贝叶斯决策理论核心
选择具有最高概率的决策
条件概率
条件概率的计算公式如下所示:
P ( g r a y |bucketB) = p (gray a n d b u c k e t B ) / P ( b u c k e t B )
另一个有效计算条件概率的方法是贝叶斯准则
已知P(x|c),要求P(c|x):
使用条件概率来分类
真正需要比较的是P(c1|x,y)和P(c2|x,y)
P(c1|x,y):给定某个由x、y表示的数据点,那么该数据点来自类别c1的概率是多少?
P(c2|x,y):数据点x、y来自类别c2的概率又是多少?
使用朴素贝叶斯进行文本分类
一般过程:
(1)收集数据 :可以使用任何方法。本章使用RSS源。
(2)准备数据:需要数值型或者布尔型数据。
(3)分析数据:有大量特征时,绘制特征作用不大,此时使用直方图效果更好。
(4)训练算法:计算不同的独立特征的条件概率。
(5)测试算法:计算错误率。
(6)使用算法:一个常见的朴素贝叶斯应用是文档分类。可以在任意的分类场景中使用朴
素贝叶斯分类器,不一定非要是文本。
由统计学知,如果每个特征需要N个样本,那么对于10个特征就需要N10个样本,对于包含1000个特征的词汇表将需要N1000个样本。可以看到,所需要的样本数量随着特征数目增大而迅速增长。所谓维数灾难,可通过降维等方法解决。
如果特征之间相互独立,那么样本数就可以从N1000减少到1000*N。
参考:
- 《机器学习实战》