Number of dp modules in each interval in the sample data set
| Feature | I1I_1I1 | I2I_2I2 |
|---|---|---|
| x1x_1x1 | 3 | 8 |
| x2x_2x2 | 7 | 4 |
Number of ndp modules in each interval in the sample data set
| Feature | I1I_1I1 | I2I_2I2 |
|---|---|---|
| x1x_1x1 | 10 | 15 |
| x2x_2x2 | 13 | 12 |
注:xiIjx_i^{I_j}xiIj为,在特征xix_ixi取值为IjI_jIj时的样本数量。比如x1I2x_1^{I_2}x1I2,其代表特征x1x_1x1在取值为I2I_2I2的样本数量,则在dp module中,x1I2=8x_1^{I_2}=8x1I2=8,在ndp module中,x1I2=15x_1^{I_2}=15x1I2=15
法一:
P(dp∣x1Ij)=dpN(xiIj)dpN(xiIj)+ndpN(xiIj)P(dp|x_1^{I_j})=\frac{dpN(x_i^{I_j})}{dpN(x_i^{I_j}) + ndpN(x_i^{I_j})}P(dp∣x1Ij)=dpN(xiIj)+ndpN(xiIj)dpN(xiIj)
P(dp∣x1I2)=N(dp,x1I2)N(x1I2)=N(dp,x1I2)N(dp,x1I2)+N(ndp,x1I2)=88+15=823
\begin{aligned}
P(dp|x_1^{I_2})&=\frac{N(dp,x_1^{I_2})} {N(x_1^{I_2})}\\
&=\frac{N(dp,x_1^{I_2})} {N(dp,x_1^{I_2}) + N(ndp,x_1^{I_2})}\\
&=\frac{8}{8+15}\\
&=\frac{8}{23}
\end{aligned}
P(dp∣x1I2)=N(x1I2)N(dp,x1I2)=N(dp,x1I2)+N(ndp,x1I2)N(dp,x1I2)=8+158=238
P(ndp∣x1I2)=N(ndp,x1I2)N(x1I2)=N(ndp,x1I2)N(dp,x1I2)+N(ndp,x1I2)=158+15=1523
\begin{aligned}
P(ndp|x_1^{I_2})&=\frac{N(ndp,x_1^{I_2})} {N(x_1^{I_2})}\\
&=\frac{N(ndp,x_1^{I_2})} {N(dp,x_1^{I_2}) + N(ndp,x_1^{I_2})}\\
&=\frac{15}{8+15}\\
&=\frac{15}{23}
\end{aligned}
P(ndp∣x1I2)=N(x1I2)N(ndp,x1I2)=N(dp,x1I2)+N(ndp,x1I2)N(ndp,x1I2)=8+1515=2315
P(dp∣x1I2)<P(ndp∣x1I2)P(dp|x_1^{I_2})<P(ndp|x_1^{I_2})P(dp∣x1I2)<P(ndp∣x1I2),x1I2x_1^{I_2}x1I2被判别为ndpndpndp类
法二:
P(xiIj∣dp)=dpN(xiIj)dpN(xi)P(x_i^{I_j}|dp)=\frac{dpN(x_i^{I_j})}{dpN(x_i)}P(xiIj∣dp)=dpN(xi)dpN(xiIj)
P(x1I2∣dp)=N(dp,x1I2)N(dp,x1)=N(dp,x1I2)N(dp,x1I1)+N(dp,x1I2)=83+8=811
\begin{aligned}
P(x_1^{I_2}|dp)&=\frac{N(dp,x_1^{I_2})}{N(dp,x_1)}\\
&=\frac{N(dp,x_1^{I_2})}{N(dp, x_1^{I_1})+N(dp,x_1^{I_2})}\\
&=\frac{8}{3+8}\\
&=\frac{8}{11}
\end{aligned}
P(x1I2∣dp)=N(dp,x1)N(dp,x1I2)=N(dp,x1I1)+N(dp,x1I2)N(dp,x1I2)=3+88=118
P(x1I2∣ndp)=N(ndp,x1I2)N(ndp,x1)=N(ndp,x1I2)N(ndp,x1I1)+N(ndp,x1I2)=1510+15=1525
\begin{aligned}
P(x_1^{I_2}|ndp)&=\frac{N(ndp,x_1^{I_2})}{N(ndp,x_1)}\\
&=\frac{N(ndp,x_1^{I_2})}{N(ndp, x_1^{I_1})+N(ndp,x_1^{I_2})}\\
&=\frac{15}{10+15}\\
&=\frac{15}{25}
\end{aligned}
P(x1I2∣ndp)=N(ndp,x1)N(ndp,x1I2)=N(ndp,x1I1)+N(ndp,x1I2)N(ndp,x1I2)=10+1515=2515
P(x1I2∣dp)>P(x1I2∣ndp)P(x_1^{I_2}|dp)>P(x_1^{I_2}|ndp)P(x1I2∣dp)>P(x1I2∣ndp),x1I2x_1^{I_2}x1I2被判断为dpdpdp类
结果分析
对于同一组数据,采用不同的分类方法得到的结果可能是不同的。
但对于上述两种依据概率分类的方法,第二种方法P(xiIj∣dp)P(x_i^{I_j}|dp)P(xiIj∣dp)是一种不可取的方式,因为他切断了类与类之间的关联,只关注数据在类内的分布是不可靠的。
在第二种分类方法中,对于特征x1I2x_1^{I_2}x1I2,我们的分类结果dpdpdp类;但是从数据的总体分布来看:
在dpdpdp类中,x1I2x_1^{I_2}x1I2的频度为8
在ndpndpndp类中,x1I2x_1^{I_2}x1I2的频度为15
对于含有特征x1I2x_1^{I_2}x1I2的测试样本,从总体数据分布来看,其属于类dpdpdp的概率为88+15=823\frac{8}{8+15}=\frac{8}{23}8+158=238,属于类ndpndpndp的概率为158+15=1523\frac{15}{8+15}=\frac{15}{23}8+1515=2315,因此该样本更有可能是ndpndpndp类而非dpdpdp类,与法二结果相悖。
因此数据分析要从总体的数据分布来考虑,而不能只参照类内的数据分布。
本文对比了两种基于概率的分类方法,分析了它们在相同数据集上的不同结果,并指出第二方法因忽略类间关联可能导致错误结论。
201

被折叠的 条评论
为什么被折叠?



