机器学习-贝叶斯分类器

引言

在生活中我们会遇到各种各样的决定,比如明天穿哪件衣服,今天中午去吃食堂的哪个档口!那么我们做出这些决定,肯定受到今天心情,天气等因素的影响,当然还有之前穿这件衣服的次数以及取这个档口的食物是否美味有关。所以我们今天我们要来讲一个概率论里面非常重要的一个内容——贝叶斯!它可以帮助我们预测这些决定!

贝叶斯决策论

定义:在所有相关概率已知的情况下,贝叶斯决策论考虑如何基于这些概率误判损失来选择最优的类别标记。
举个栗子:假设当前有一个N分类的问题,分类标签y∈{c1,c2,......cn}y \in \{ {c_1},{c_2},......{c_n}\}y{c1,c2,......cn}λij{\lambda _{ij}}λij是将真实标记为ci{c_i}ci的样本错分为cj{c_j}cj所产生的损失。

条件风险

我们将定义当个样本所产生的期望损失(条件风险)为:
R(ci∣x)=∑j=1Nλijp(cj∣x)R({c_i}|x) = \sum\limits_{j = 1}^N {{\lambda _{ij}}p({c_j}|x)} R(cix)=j=1Nλijp(cjx)
其中p(cj∣x){p({c_j}|x)}p(cjx)为后验概率。

总体风险

总体风险是条件风险的期望:
R(h)=Ex[R(h(x)∣x)]R(h) = {E_x}[R(h(x)|x)]R(h)=Ex[R(h(x)x)]
其中h为分类器(模型),显然分类效果越准确的h,可以使得条件风险和总体风险小。

贝叶斯判定准则

定义:为了最小化总体风险,只需要在每个样本上选择可以使得条件风险最小的类别标记:
h∗(x)=arg⁡min⁡R(c∣x){h^*}(x) = \arg \min R(c|x)h(x)=argminR(cx)
此时的h∗(x){h^*}(x)h(x)就是最优分类器。
具体的:如果若目标为最小化分类错误率,那么误判损失λij{\lambda _{ij}}λij可以采用0-1损失:
在这里插入图片描述
此时单个样本的条件风险为:
R(ci∣x)=∑j=1Nλijp(cj∣x)=1∗p(c1∣x)......+0∗p(ci∣x)+......p(cn∣x)R({c_i}|x) = \sum\limits_{j = 1}^N {{\lambda _{ij}}p({c_j}|x) = 1*} p({c_1}|x)...... + 0*p({c_i}|x) + ......p({c_n}|x)R(cix)=j=1Nλijp(cjx)=1p(c1x)......+0p(cix)+......p(cnx)
所以条件风险可以进一步转换为:
R(ci∣x)=1−p(ci∣x)R({c_i}|x) = 1 - p({c_i}|x)R(cix)=1p(cix)
按照贝叶斯判定准则,最小错误率的贝叶斯最优分类器为:
h∗(x)=arg⁡min⁡c∈yR(c∣x)=arg⁡min⁡i∈{1,2,...n}R(ci∣x){h^*}(x) = \mathop {\arg \min }\limits_{c \in y} R(c|x) = \mathop {\arg \min }\limits_{i \in \{ 1,2,...n\} } R({c_i}|x)h(x)=cyargminR(cx)=i{1,2,...n}argminR(cix)
h∗(x)=arg⁡min⁡i∈{1,2,...n}1−p(ci∣x)=arg⁡max⁡i∈{1,2,...n}p(ci∣x)=arg⁡max⁡c∈yp(c∣x){h^*}(x) = \mathop {\arg \min }\limits_{i \in \{ 1,2,...n\} } 1 - p({c_i}|x) = \mathop {\arg \max }\limits_{i \in \{ 1,2,...n\} } p({c_i}|x) = \mathop {\arg \max }\limits_{c \in y} p(c|x)h(x)=i{1,2,...n}argmin1p(cix)=i{1,2,...n}argmaxp(cix)=cyargmaxp(cx)
所以要想最小化每个样本的条件风险,就应该选择后验概率最大的类别最为标记!

贝叶斯定理

判别式模型:判别式模型是指给定数据x,根据样本x直接建模后验概率p(c∣x)p(c|x)p(cx)来预测标记!比如逻辑回归,决策树,svm。
生成式模型:先对联合概率密度p(x∣c)p(x|c)p(xc)进行建模,然后再推导出p(c∣x)p(c|x)p(cx),比如贝叶斯决策和概率图。
贝叶斯定理
p(c∣x)=p(c)p(x∣c)p(x)p(c|x) = {{p(c)p(x|c)} \over {p(x)}}p(cx)=p(x)p(c)p(xc)
其中p©是先验概率,比如西瓜数据集中好瓜或者坏瓜的概率;p(x∣c){p(x|c)}p(xc)是样本x对于类别c的类条件概率,比如好瓜情况下色泽=浅白的概率;p(x)是用于归一化的“证据因子”。

朴素贝叶斯分类器

属性条件独立性假设:对已知类别,假设所有属性独立。
p(c∣x)=p(c)p(x∣c)p(x)=p(c)p(x)∏i=1dp(xi∣c)p(c|x) = {{p(c)p(x|c)} \over {p(x)}} = {{p(c)} \over {p(x)}}\prod\limits_{i = 1}^d {p({x_i}|c)} p(cx)=p(x)p(c)p(xc)=p(x)p(c)i=1dp(xic)
其中d为样本的属性的数目,xi是x再第i个属性上的取值,基于贝叶斯判定准则:
h∗(x)=arg⁡max⁡c∈yp(c∣x)=arg⁡max⁡c∈yp(c)p(x)∏i=1dp(xi∣c){h^*}(x) = \mathop {\arg \max }\limits_{c \in y} p(c|x) = \mathop {\arg \max }\limits_{c \in y} {{p(c)} \over {p(x)}}\prod\limits_{i = 1}^d {p({x_i}|c)} h(x)=cyargmaxp(cx)=cyargmaxp(x)p(c)i=1dp(xic)
由于对所有的类别,p(x)可以看作常量:
hnb(x)=arg⁡max⁡c∈yp(c)∏i=1dp(xi∣c){h_{nb}}(x) = \mathop {\arg \max }\limits_{c \in y} p(c)\prod\limits_{i = 1}^d {p({x_i}|c)} hnb(x)=cyargmaxp(c)i=1dp(xic)
接下来有一个很好的问题,我们该怎么去获得联合概率密度p(xi∣c){p({x_i}|c)}p(xic)呢?
第i个属性为离散属性
p(xi∣c)=∣D(c,xi)∣∣D(c)∣p({x_i}|c) = {{|D(c,{x_i})|} \over {|D(c)|}}p(xic)=D(c)D(c,xi)
其中D(ci,x){D({c_i},x)}D(ci,x)表示再D©中再第i个属性上取值为xi的样本所组成的集合。比如好瓜中色泽=浅白的概率。
第i个属性为连续属性
p(xi∣c)=12πσc,ie−(xi−μc,i)22σc,i2p({x_i}|c) = {1 \over {\sqrt {2\pi } {\sigma _{c,i}}}}{e^{ - {{{{({x_i} - {\mu _{c,i}})}^2}} \over {2{\sigma _{c,i}}^2}}}}p(xic)=2πσc,i1e2σc,i2(xiμc,i)2
其中μc,i{{\mu _{c,i}}}μc,iσc,i{{\sigma _{c,i}}}σc,i分别代表第c类样本再第i个属性上的平均值和方差。

半朴素贝叶斯分类器

适当考虑一部分属性之间的依赖关系,从而不需要进行完全联合概率计算,又不至于彻底忽略了比较强的属性依赖关系。
独依赖估计:假设每个属性再类别之外最多依赖于一个其他属性,即
p(c∣x)αp(c)∏i=1dp(xi∣c,pai)p(c|x)\alpha p(c)\prod\limits_{i = 1}^d {p({x_i}|c,{p_{ai}})} p(cx)αp(c)i=1dp(xic,pai)
其中pai{{p_{ai}}}pai为属性xi所依赖的属性,称为xi的父属性。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值