一、信息熵
其中:
:样本属于第i个类别的概率
:总样本数
:集合
中属于第
个类别的样本个数
二、条件熵
条件熵是在给定某个特征的情况下,对于分类结果的不确定性的度量。
- 条件熵越大,说明在给定该特征的情况下,样本的分类结果越不确定,即样本的混乱程度越高
- 条件熵较小,说明在给定该特征的情况下,样本的分类结果越趋向于一致,即样本的混乱程度越低
当一个特征的取值数目较多时,它可以将样本划分为更多的子集,这样可以更好地区分不同类别的样本,从而降低条件熵。
其中:
:样本属于第i个类别的概率
:总样本数
:集合
中属于第
个类别的样本个数
条件熵是在给定某个特征的情况下,对于分类结果的不确定性的度量。
当一个特征的取值数目较多时,它可以将样本划分为更多的子集,这样可以更好地区分不同类别的样本,从而降低条件熵。
3040
3513
3760
469

被折叠的 条评论
为什么被折叠?