昨天看一个机器学习面试材料的时候,发现他把C4.5算法中信息增益率描述为信息增益与之前熵的比值。这个有问题,在周志华书中确认了这一点,即增益率描述的是信息增益与(该特征IV值,其实就是熵)的比值,公式描述如下:
Gain(D,a)IV(a)Gain(D,a)IV(a)
IV(a)=−∑i=1npilog2piIV(a)=−∑i=1npilog2pi
昨天突然想到了复习以下gini系数的公式,如下:
Gini=1−∑i=1kp2iGini=1−∑i=1kpi2
其中,pipi是类别为i的概率,而p2ipi2就代表了抽到两个属于某个同一类别的概率