这两天在学习决策树的时候对决策树特征选择搞得有点混乱,在对李航老师的《统计学习方法》进行反复研读后,对此有了新的认识,也理清了思路。以下是我在李航老师的基础上加了一些自己的理解,有不对的地方欢迎大家批评指正。
1 ID3算法中的特征选择




2 C4.5算法中的特征选择
ID3算法利用信息增益作为选择训练数据集特征选取的依据,存在选择取值较多的特征来对数据集进行分割的偏向。使用 信息增益比来进行特征的选取可以对这一问题进行校正。进而C4.5算法产生了。

3 CART算法中的特征选择
CART算法中,决策树的生成就是递归地构建二叉树的过程。对回归树用平方误差最小化准则,对分类树用基尼指数最小化准则,进行特征选择,生成二叉树。

本文介绍了决策树中的ID3、C4.5和CART算法,重点讨论了特征选择策略。ID3依赖信息增益,C4.5通过信息增益比改进了这一问题,而CART算法采用平方误差最小化和基尼指数来构建二叉树,分别用于回归树和分类树的构建。
最低0.47元/天 解锁文章
1371

被折叠的 条评论
为什么被折叠?



