算法的核心问题:
1,按照什么样的次序来选择变量(属性)?
ID3:信息增益
ID3弊端:信息增益的方法倾向于首先选择因字数较多的变量
C4.5: 信息增益率
以个数为4,6,4的元祖为例
1,计算分裂信息参数:
2,计算信息增益:
Grain=0.029(计算过程略)
3,信息增益率=信息增益/分裂信息参数
2,最佳分离点(连续的情形)在哪儿?
去中间值然后寻找导致最大信息增益的值