不纯度的度量
ßGini系数:是一种与信息熵类似的做特征选择的方式,可以用来衡量数据的不纯度。Gini系数的计算方式如下:

ß信息增益(Info Gain)用于ID3
ßGini用于CART
ß信息增益率(Info Gain Ratio)用于C4.5。
ID3算法思想描述
ß(a)对当前例子集合,计算属性的信息增益;
ß(b)选择信息增益最大的属性Ai;
ß(c)把在Ai处取值相同的例子归于同于子集,Ai取几个值就得几个子集;
ß(d)对依次对每种取值情况下的子集,递归调用建树算法,即递归进入(a);
ß(e)若子集只含有单个属性,则分支为叶子节点,判断其属性值并标上相应的符号,然后返回。