一、朴素贝叶斯算法概述
朴素贝叶斯是一种基于贝叶斯定理的简单概率分类算法。它假设特征之间相互独立,这是其“朴素”的由来。
二、贝叶斯定理基础
贝叶斯定理是整个算法的核心,其公式如下:
P(A∣B)=P(B∣A)P(A)P(B)P(A|B)=\frac{P(B|A)P(A)}{P(B)}P(A∣B)=P(B)P(B∣A)P(A)
在分类问题中,我们设AAA为类别变量(如垃圾邮件和非垃圾邮件类别),BBB为特征向量(如邮件中的单词出现情况)。
三、算法原理细节
-
先验概率计算
- 对于训练数据集中的每个类别yiy_iyi,先验概率P(yi)P(y_i)P(yi)的计算如下:
P(yi)=NyiNP(y_i)=\frac{N_{y_i}}{N}P(yi)=NNyi
其中NyiN_{y_i}Nyi是属于类别yiy_iyi的样本数量,NNN是总的样本数量。例如,若有100封邮件,其中60封是非垃圾邮件,那么非垃圾邮件的先验概率P(y=非垃圾邮件)=60100=0.6P(y =非垃圾邮件)=\frac{60}{100}=0.6P(y=非垃圾邮件)=10060=0.6。 -
条件概率计算
- 对于离散型特征xjx_jxj,在类别yiy_iy

最低0.47元/天 解锁文章
3万+

被折叠的 条评论
为什么被折叠?



