Naive Bayes(朴素贝叶斯分类器)

朴素贝叶斯分类器

引言

概率模型的训练过程就是对参数进行估计。对于参数估计,分为两个学派:频率学派贝叶斯学派
频率学派认为参数的真值是固定的、未知的一个常数,观察到的数据是随机的。他们主要关注的是样本空间,提出的解决方法是最大似然估计(例如logistic regression)。

贝叶斯学派认为参数的真值是未观察到的随机变量,但是随机变量本身也可以有分布,观察到的数据是固定的。他们主要关注点是参数空间,重视参数的分布。通过参数的先验(prior)估计后验概率。提出的解决方法是最大后验估计。

频率学派的观点是对总体分布做适当的假定,结合样本信息对参数进行统计推断,涉及总体信息和样本信息,贝叶斯学派认为除了上述两类信息,统计推断应该引入先验信息。
朴素贝叶斯的分类原理是利用贝叶斯公式,根据特征的先验概率计算后验概率,选择具有最大后验概率的类别作为该特征所属的类别。

通过贝叶斯公式可以明过去,知未来。

原理

贝叶斯公式为:
P ( B ∣ A ) = P ( A ∣ B ) P ( B ) P ( A ) P(B|A) = \frac{P(A|B)P(B)}{P(A)} P(BA)=P(A)P(AB)P(B)
换个中文形式可以写为
P ( 类别 ∣ 特征 ) = p ( 特征 ∣ 类别 ) p ( 类别 ) p ( 特征 ) P(类别|特征) =\frac {p(特征|类别)p(类别)}{p(特征)} P(类别特征)=p(特征)p(特征类别)p(类别)
我们假设待分类样本S为:

特征集合 X = { x 1 , x 2 , . . . , x n } X = \{x_1,x_2,...,x_n\} X={ x1,x2,...,xn}
类别标签集合 C = { c 1 , c 2 , . . . , c m } C = \{c_1,c_2,...,c_m\} C={ c1,c2,...,cm}
表示样本S具有n个特征,会有m种不同的分类结果。
那么,此时贝叶斯公式可以写为
P ( c i ∣ X ) = p ( X , c i ) P ( X ) = P ( X ∣ c i ) P ( c i ) P ( X ) P(c_i|X) = \frac{p(X,c_i)}{P(X)} = \frac{P(X|c_i)P(c_i)}{P(X)} P(ciX)=P(X)p(X,ci)=P(X)P(Xci)P(ci)

其中 P ( X ∣ c i ) P ( X ) \frac{P(X|c_i)}{P(X)} P(X)P(Xci)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

czijin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值