朴素贝叶斯分类器
引言
概率模型的训练过程就是对参数进行估计。对于参数估计,分为两个学派:频率学派和贝叶斯学派。
频率学派认为参数的真值是固定的、未知的一个常数,观察到的数据是随机的。他们主要关注的是样本空间,提出的解决方法是最大似然估计(例如logistic regression)。
贝叶斯学派认为参数的真值是未观察到的随机变量,但是随机变量本身也可以有分布,观察到的数据是固定的。他们主要关注点是参数空间,重视参数的分布。通过参数的先验(prior)估计后验概率。提出的解决方法是最大后验估计。
频率学派的观点是对总体分布做适当的假定,结合样本信息对参数进行统计推断,涉及总体信息和样本信息,贝叶斯学派认为除了上述两类信息,统计推断应该引入先验信息。
朴素贝叶斯的分类原理是利用贝叶斯公式,根据特征的先验概率计算后验概率,选择具有最大后验概率的类别作为该特征所属的类别。
通过贝叶斯公式可以明过去,知未来。
原理
贝叶斯公式为:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A) = \frac{P(A|B)P(B)}{P(A)} P(B∣A)=P(A)P(A∣B)P(B)
换个中文形式可以写为
P ( 类别 ∣ 特征 ) = p ( 特征 ∣ 类别 ) p ( 类别 ) p ( 特征 ) P(类别|特征) =\frac {p(特征|类别)p(类别)}{p(特征)} P(类别∣特征)=p(特征)p(特征∣类别)p(类别)
我们假设待分类样本S为:
特征集合 X = { x 1 , x 2 , . . . , x n } X = \{x_1,x_2,...,x_n\} X={
x1,x2,...,xn}
类别标签集合 C = { c 1 , c 2 , . . . , c m } C = \{c_1,c_2,...,c_m\} C={
c1,c2,...,cm}
表示样本S具有n个特征,会有m种不同的分类结果。
那么,此时贝叶斯公式可以写为
P ( c i ∣ X ) = p ( X , c i ) P ( X ) = P ( X ∣ c i ) P ( c i ) P ( X ) P(c_i|X) = \frac{p(X,c_i)}{P(X)} = \frac{P(X|c_i)P(c_i)}{P(X)} P(ci∣X)=P(X)p(X,ci)=P(X)P(X∣ci)P(ci)
其中 P ( X ∣ c i ) P ( X ) \frac{P(X|c_i)}{P(X)} P(X)P(X∣ci)