一、熵(Entropy)
用于决策树的属性选择函数,定义为其属性的不纯性度量,发生概率越低的事件,其所携带的熵越低。满足以下几个条件:1.当结点很纯时,其度量值为0;
2.当不纯性最大时,其度量值最大;
3.度量应该服从多级特性,使得决策树可以分阶段建立起来。
其中pi为比例值。
二、信息增益(Info Gain)
信息增益,即前后信息的差值,对于决策树分类问题而言,指的是决策树在进行属性选择划分前后的信息差值。
算法会选择最大的信息增益属性来进行划分。
三、信息增益率(Info Gain Ratio)
由于使用熵和信息增益来进行决策树的属性选择时,可能会出现过拟合的现象(即某个属性存在大量的不同值,在划分时将每个值划分成一个节点),因此我们采用信息增益率,一种综合的评价指标,考虑了分支数量和尺寸因素。