决策树的缺点:
1、不易处理连续的数据。
2、对缺失数据难以处理。由于不能对缺失的数据产生正确的分支进而影响了整个决策树的生成。
3、决策树的过程忽略了数据库属性间的相关性。
决策树算法分为两类:
1、基于信息论
ID系列,例如:C4.5
2、最小GINI指示
CARPT、SLIQ、SPRINT算法
评价的标准:
1、决策树的复杂度
2、分类精度
最优决策树的评判标准:
1、叶子节点数最少;
2、叶子节点深度最小;
3、叶子节点数最少且叶子节点深度最小。