朴素贝叶斯分类器是分类算法集合中基于贝叶斯理论的一种算法。它不是单一存在的,而是一个算法家族,在这个算法家族中它们都有共同的规则。例如每个被分类的特征对与其他的特征对都是相互独立的。
朴素贝叶斯分类器的核心思想是:
1、将所有特征的取值看成已经发生的事件
2、将因变量属于某个分类也看成所有特征出现条件下的概率事件去判断。将分类问题转换为计算Xi出现的情况下 Yi 发生的概率(即为 P(Yi|Xi))。
3、在假设特征变量之间均独立的前提下,根据概率论的知识, 计算Yi 在 Xi发生时的条件概率 为 Xi和Yi同时发生的概率除以 Xi独立概率。即 P(Yi|Xi)=P(Xi|Yi)*P(Yi)/P(Xi)
朴素贝叶斯的难点和误差来源:
1、所有特征必须是分类变量
2、需要知道每个特征(X)的独立发生概率、因变量(Y)独立发生的概率和因变量发生的情况下,每个特征发生的概率。
3、需要非常有代表性的数据,尽量减少 X 的分布,Y的分布,X|Y 条件分布的误差。
4、特征之间独立性的假设,造成模型误差
基本朴素贝叶斯的变体:
1、高斯贝叶斯(GaussianNB):
将连续特征假设为高斯分布(正态分布)进行概率计算。
所以高斯贝叶斯需要连续特征符合高斯分布。
2、多项式贝叶斯(MultinomialNB):先验为高斯分布的朴素贝叶斯,用于多类型的离散变量。转换为数字即可,不需要dummy处理。
3、伯努利分布贝叶斯(BernoulliNB):先验为伯努利分布的朴素贝叶斯,用于0,1变量的离散变量。转换为数字即可。
2、条件概率的计算方法的变体(m估计法)


本文介绍了朴素贝叶斯分类器的基本原理,包括其核心思想和计算公式,强调了特征独立性的假设及其对模型的影响。讨论了高斯贝叶斯、多项式贝叶斯和伯努利分布贝叶斯三种变体,并提出了使用朴素贝叶斯时应注意的数据预处理和参数调整技巧。
最低0.47元/天 解锁文章
1万+

被折叠的 条评论
为什么被折叠?



