一、朴素贝叶斯算法概述
朴素贝叶斯是一种基于贝叶斯定理的简单概率分类算法。它假设特征之间相互独立,这是其“朴素”的由来。
二、贝叶斯定理基础
贝叶斯定理是整个算法的核心,其公式如下:
P ( A ∣ B ) = P ( B ∣ A ) P ( A ) P ( B ) P(A|B)=\frac{P(B|A)P(A)}{P(B)} P(A∣B)=P(B)P(B∣A)P(A)
在分类问题中,我们设 A A A为类别变量(如垃圾邮件和非垃圾邮件类别), B B B为特征向量(如邮件中的单词出现情况)。
三、算法原理细节
-
先验概率计算
- 对于训练数据集中的每个类别 y i y_i yi,先验概率 P ( y i ) P(y_i) P(yi)的计算如下:
P ( y i ) = N y i N P(y_i)=\frac{N_{y_i}}{N} P(yi)=NNyi
其中 N y i N_{y_i} Nyi是属于类别 y i y_i yi的样本数量, N N N是总的样本数量。例如,若有100封邮件,其中60封是非垃圾邮件,那么非垃圾邮件的先验概率 P ( y = 非垃圾邮件 ) = 60 100 = 0.6 P(y =非垃圾邮件)=\frac{60}{100}=0.6 P(y=非垃圾邮件)=10060=0.6。 -
条件概率计算
- 对于离散型特征 x j x_j xj,在类别 y i y_i