数据分类过程中P(classification|data)与P(data|classification)的区别与优劣

本文对比了两种基于概率的分类方法,分析了它们在相同数据集上的不同结果,并指出第二方法因忽略类间关联可能导致错误结论。

Number of dp modules in each interval in the sample data set

FeatureI1I_1I1I2I_2I2
x1x_1x138
x2x_2x274

Number of ndp modules in each interval in the sample data set

FeatureI1I_1I1I2I_2I2
x1x_1x11015
x2x_2x21312

注:xiIjx_i^{I_j}xiIj为,在特征xix_ixi取值为IjI_jIj时的样本数量。比如x1I2x_1^{I_2}x1I2,其代表特征x1x_1x1在取值为I2I_2I2的样本数量,则在dp module中,x1I2=8x_1^{I_2}=8x1I2=8,在ndp module中,x1I2=15x_1^{I_2}=15x1I2=15

法一:

P(dp∣x1Ij)=dpN(xiIj)dpN(xiIj)+ndpN(xiIj)P(dp|x_1^{I_j})=\frac{dpN(x_i^{I_j})}{dpN(x_i^{I_j}) + ndpN(x_i^{I_j})}P(dpx1Ij)=dpN(xiIj)+ndpN(xiIj)dpN(xiIj)
P(dp∣x1I2)=N(dp,x1I2)N(x1I2)=N(dp,x1I2)N(dp,x1I2)+N(ndp,x1I2)=88+15=823 \begin{aligned} P(dp|x_1^{I_2})&=\frac{N(dp,x_1^{I_2})} {N(x_1^{I_2})}\\ &=\frac{N(dp,x_1^{I_2})} {N(dp,x_1^{I_2}) + N(ndp,x_1^{I_2})}\\ &=\frac{8}{8+15}\\ &=\frac{8}{23} \end{aligned} P(dpx1I2)=N(x1I2)N(dp,x1I2)=N(dp,x1I2)+N(ndp,x1I2)N(dp,x1I2)=8+158=238
P(ndp∣x1I2)=N(ndp,x1I2)N(x1I2)=N(ndp,x1I2)N(dp,x1I2)+N(ndp,x1I2)=158+15=1523 \begin{aligned} P(ndp|x_1^{I_2})&=\frac{N(ndp,x_1^{I_2})} {N(x_1^{I_2})}\\ &=\frac{N(ndp,x_1^{I_2})} {N(dp,x_1^{I_2}) + N(ndp,x_1^{I_2})}\\ &=\frac{15}{8+15}\\ &=\frac{15}{23} \end{aligned} P(ndpx1I2)=N(x1I2)N(ndp,x1I2)=N(dp,x1I2)+N(ndp,x1I2)N(ndp,x1I2)=8+1515=2315
P(dp∣x1I2)<P(ndp∣x1I2)P(dp|x_1^{I_2})<P(ndp|x_1^{I_2})P(dpx1I2)<P(ndpx1I2)x1I2x_1^{I_2}x1I2被判别为ndpndpndp

法二:

P(xiIj∣dp)=dpN(xiIj)dpN(xi)P(x_i^{I_j}|dp)=\frac{dpN(x_i^{I_j})}{dpN(x_i)}P(xiIjdp)=dpN(xi)dpN(xiIj)
P(x1I2∣dp)=N(dp,x1I2)N(dp,x1)=N(dp,x1I2)N(dp,x1I1)+N(dp,x1I2)=83+8=811 \begin{aligned} P(x_1^{I_2}|dp)&=\frac{N(dp,x_1^{I_2})}{N(dp,x_1)}\\ &=\frac{N(dp,x_1^{I_2})}{N(dp, x_1^{I_1})+N(dp,x_1^{I_2})}\\ &=\frac{8}{3+8}\\ &=\frac{8}{11} \end{aligned} P(x1I2dp)=N(dp,x1)N(dp,x1I2)=N(dp,x1I1)+N(dp,x1I2)N(dp,x1I2)=3+88=118
P(x1I2∣ndp)=N(ndp,x1I2)N(ndp,x1)=N(ndp,x1I2)N(ndp,x1I1)+N(ndp,x1I2)=1510+15=1525 \begin{aligned} P(x_1^{I_2}|ndp)&=\frac{N(ndp,x_1^{I_2})}{N(ndp,x_1)}\\ &=\frac{N(ndp,x_1^{I_2})}{N(ndp, x_1^{I_1})+N(ndp,x_1^{I_2})}\\ &=\frac{15}{10+15}\\ &=\frac{15}{25} \end{aligned} P(x1I2ndp)=N(ndp,x1)N(ndp,x1I2)=N(ndp,x1I1)+N(ndp,x1I2)N(ndp,x1I2)=10+1515=2515
P(x1I2∣dp)>P(x1I2∣ndp)P(x_1^{I_2}|dp)>P(x_1^{I_2}|ndp)P(x1I2dp)>P(x1I2ndp),x1I2x_1^{I_2}x1I2被判断为dpdpdp

结果分析

对于同一组数据,采用不同的分类方法得到的结果可能是不同的。
但对于上述两种依据概率分类的方法,第二种方法P(xiIj∣dp)P(x_i^{I_j}|dp)P(xiIjdp)是一种不可取的方式,因为他切断了类与类之间的关联,只关注数据在类内的分布是不可靠的。
在第二种分类方法中,对于特征x1I2x_1^{I_2}x1I2,我们的分类结果dpdpdp类;但是从数据的总体分布来看:
dpdpdp类中,x1I2x_1^{I_2}x1I2的频度为8
ndpndpndp类中,x1I2x_1^{I_2}x1I2的频度为15
对于含有特征x1I2x_1^{I_2}x1I2的测试样本,从总体数据分布来看,其属于类dpdpdp的概率为88+15=823\frac{8}{8+15}=\frac{8}{23}8+158=238,属于类ndpndpndp的概率为158+15=1523\frac{15}{8+15}=\frac{15}{23}8+1515=2315,因此该样本更有可能是ndpndpndp类而非dpdpdp类,与法二结果相悖。
因此数据分析要从总体的数据分布来考虑,而不能只参照类内的数据分布。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值