机器学习(七)——贝叶斯分类器

笔者是一个痴迷于挖掘数据中的价值的学习人,希望在平日的工作学习中,挖掘数据的价值,找寻数据的秘密,笔者认为,数据的价值不仅仅只体现在企业中,个人也可以体会到数据的魅力,用技术力量探索行为密码,让大数据助跑每一个人,欢迎直筒们关注我的公众号,大家一起讨论数据中的那些有趣的事情。

我的公众号为:livandata

Ø  求A存在的条件下,B的概率,即P(B/A);

P(B/A)= P(AB)/P(A)=(P(A/B)*P(B))/P(A);

P(B)、P(A)两个概率都是可以从样本中获取的,只需要求P(A/B);

P(A/B)= P(A1/B)+P(A2/B)+P(A3/B)+P(A4/B)……即可;

贝叶斯将条件概率和全概率两个概念结合在一起,求出B条件下A的概率;

Ø  假设:

朴素贝叶斯基础假设是,对于每一个特征都有:独立;相等;来支持输出结果。

与我们的数据集关联起来,我们可以这样理解这个概念:

我们假设没有特征对是相互依赖的。温度热不热跟湿度没有任何关系,天气是否下雨也不影响是否刮风。因此,这就是假设特征相互独立

其次,每个特征都有相同的权重(或者是重要性)。例如,只知道温度和湿度是不能准确地推断出结果的。任何属性都与结果是有关系的,并且影响程度是相同的。

注意:如果在现实情况中,这个假设就使得朴素贝叶斯不能一般性地正确了。实际上独立这个假设就根本不可能成立,但是又往往在实践中能够很方便地计算。

在进入朴素贝叶斯方程之前,要知道贝叶斯理论是十分重要的。

Ø  贝叶斯理论:

贝叶斯理论指的是,根据一个已发生事件的概率,计算另一个事件的发生概率。贝叶斯理论从数学上的表示可以写成这样:

 

在这里A和B都是事件,P(B)不为0。

基本上,只要我们给出了事件B为真,那么就能算出事件A发生的概率,事件B也被称为证据。

P(A)是事件A的先验(先验概率,例如,在证据之前发生的概率)。证据是一个未知事件的一个属性值(在这里就是事件B)。

P(A|B)是B的后验概率,例如在证据之后发生的概率。

现在再考虑一下我们的数据集,我们可以这样用贝叶斯理论: 

 

在这里y是类变量,X是依赖特征向量(大小为n): 

 

Ø  朴素假设:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值