描述:
计算每个特征对样本集进行划分所获得的信息增益,然后做归一化处理可以得到每个特征的权重
目标:
样本降维
一种算法策略:参考决策树的划分选择
首先引入概念信息熵、信息增益。
信息熵(information entropy)是度量样本几何纯度最常用的一种指标。假定样本集合D中第k类样本所占的比例为
则D的信息熵定义为
(1.1)
(熵在物理学上指混乱程度,因此熵越低信息越确定。举个极端的例子,样本集只有一个类别+1,那么P1=1,Ent(D)=0,信息熵为0即非常确定,因为随便取一个样本都是+1)
假定离散属性a有V个可能的取值,若使用a来对样本集D进行划分,则会产生V个子集,其中第v个子集包含了D中所有在属性a上取值为
的样本,记为
。可以根据式(1.1)计算出
的信息熵,再考虑到不同的子集所包含的样本数不同,给子集赋予权重
,即样本数越多的子集的影响越大,于是可以计算出用属性a对样本集D进行划分所获得的信息增益(information gain)
(1.2)
假定样本集D上第j个特征(
),可以计算出每个特征
在训练数据集D下的信息增益
,于是得到K个信息增益值,对其做归一化处理,可以得到每个特征所占的权重:
(1.3)
下面举个例子来更好的理解上述公式。
假定某二分类数据集有17个样本,其中正例8个,反例9个,显然|y|=2。因此,
,根据式(1.1)可以计算出信息熵为
假定该数据集有6个特征{颜色,形状,声响,纹理,触感,气味},然后我们要计算出每个特征的信息增益。以“颜色”为例,假定它有3个可能的取值:{红色,绿色,蓝色}。用该特征对数据集D进行划分,则可得到3个子集,分别记为(颜色=红色),
(颜色=绿色),
(颜色=蓝色)。
假定有6个样本,其中正例占
,反例占
。
有6个样本,其中正例占
,反例占
。
有5个样本,其中正例占
,反例占
。根据式(1.1)可以计算出用“颜色”划分之后所获得的3个子集的信息熵为
于是,根据式(1.2)可以计算出特征“颜色”的信息增益为
同理可得其他特征的信息增益:
根据式(1.3)可以计算出每个属性的权重:
参考资料:
- 优快云.利用分类模型学习特征权重
- 周志华.《机器学习》[M].北京:清华大学出版社,2016