贝叶斯分类器
原理:基于先验概率P(Y),利用贝叶斯公式计算后验概率P(Y/X)(该对象属于某一类的概率),选择具有最大后验概率的类作为该对象所属类
特点:数据可离散可连续;对数据缺失、噪音不敏感;若属性相关性小,分类效果好,相关也不低于决策树
朴素贝叶斯算法
学习的内容是先验概率和条件概率(都使用极大似然估计这两种概率),公式很难敲,不敲了
scikit-learn中根据条件概率不同的分布有多种贝叶斯分类器
高斯贝叶斯分类器(GaussianNB)【假设条件分布满足高斯分布】
sklearn.naive_bayes.GaussianNB
-
无参数,不需要调参
-
方法
- fit()
- partial_fit():追加训练模型,适用于规模大的数据集,划分为若干个小数据集,在这些小数据集上连续使用partial_fit训练模型
- predict()
- score()
-
属性
- class_prior_:每个类别的概率
- class_count_:每个类别包含样本数量
多项式贝叶斯分类器(MultinomialNB)【。。。多项式分布】
sklearn.naive_bayes.MutlnomialNB
-
参数
- alpha:浮点数,指定朴素贝叶斯估计公式中λ值
- fit_prior=Tru