贝叶斯算法

谈到贝叶斯,会提到概率论的两大学派,频率学派和贝叶斯学派,也是机器学习中的判别方法和生成方法,对于大多数的分类算法,如决策树,SVM,逻辑回归,KNN等,这些都是判别方法,也就是直接学习出特征输出Y和特征X之间的关系,要么是决策函数Y=f(X),要么是条件分布P(Y|X)。但是朴素贝叶斯却是生成方法,也就是直接找出特征输出Y和特征X的联合分布P(X,Y),然后用P(Y|X)=P(X,Y)/P(X)得出。
一、贝叶斯决策轮
贝叶斯决策论是概率框架下实施决策的基本方法,对分类任务来说,在所有相关概率都已知的理想情况下,贝叶斯决策论考虑如何基于这些概率和误判损失来选择最优的类别标记,以多分类任务为例讲解。
假设有N种可能的类别标记,即Y={c1,c2,...,cN},λij是将一个真实标记为cj的样本误分类为ci所产生的损失,基于后验概率P(ci|x)可获得将样本x分类为ci所产生的期望损失,即在样本x上的"条件风险"

R(ci|x)=Nj=1λijP(cj|x)

我们的任务时寻找一个判定准则h:χy以最小化总体风险

R(h)=Ex[R(h(x)|x)]

对于每个样本x,若h能最小化条件风险R(h(x)|x),则总体风险R(h)也将最小化,这就产生了贝叶斯判定准则,为最小化总体风险,只需在每个样本上选择能使条件风险R(c|x)最小的类别标记,即:

h(x)=argmincϵyR(c|x)

称为贝叶斯最优分类器,与之对应的总体风险R(h)称为贝叶斯风险。
条件风险简化为

R(c|x)=1P(c|x)

此时,若最小化分类错误率的贝叶斯最优分类器为

h(x)=argmaxcϵyP(c|x)

即选择能使后验概率P(c|x)最大的类别标记。
基于贝叶斯公式,

P(c|x)=P(c)P(x|c)P(x)

其中,P(c)是类"先验"概率,P(x|c)是样本x的相对类标记c的类条件概率或称为“似然”。
类先验概率P(c)表达样本空间中各类样本所占的比例,根据大数定律,可通过各类样本出现的频率估计,对于类条件概率由于涉及x的所有属性的了联合概率,直接计算很困难,需要借助极大似然估计。另外,由于类条件概率难以直接计算,处理时也有简单的zu做属性独立性假设,这就是朴素贝叶斯。
二、朴素贝叶斯相关的统计学知识
我们先看看条件独立公式,如果X和Y相互独立,则有:

P(X,Y)=P(X)P(Y)

接着看条件概率公式:

P(Y|X)=P(X,Y)P(X)

P(X|Y)=P(X,Y)P(Y)

或者说:

P(Y|X)=P(X|Y)P(Y)P(X)

接着看全概率公式:

P(X)=kP(X|Y=Yk)P(Yk)kP(Yk)=1

从上面公式可以得出贝叶斯公式:

P(Yk|X)=P(X|Yk)P(Yk)kP(X|Y=Yk)P(Yk)

三、朴素贝叶斯模型
假如我们的分类模型样本是:

(x(1)1,x(1)2,...x(1)n,y1),(x(2)1,x(2)2,...x(2)n,y2),...(x(m)1,x(m)2,...x(m)n,yn)

即我们有m个样本,每个样本有n个特征,特征输出有K个类别,定义为C1,C2,...,CK
从样本我们可以学习得到朴素贝叶斯的先验分布P(Y=Ck)(k=1,2,...K),接着学习到条件概率分布P(X=x|Y=Ck)=P(X1=x1,X2=x2,...Xn=xn|Y=Ck),然后我们就可以用贝叶斯公式得到X和Y的联合分布P(X,Y)了。联合分布P(X,Y)定义为:

P(X,Y=Ck)=P(Y=Ck)P(X=x|Y=Ck)=P(Y=Ck)P(X1=x1,X2=x2,...Xn=xn|Y=Ck)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值