1. 决策树学习的目的:从数据样本集中归纳出一组具有分类能力的分类规则。
2. 树模型和线性模型有什么区别呢?
树形模型是一个一个特征进行处理,之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此。另外逻辑回归只能找到线性分割,而决策树可以找到非线性分割。
3. ID3,C4.5算法的优点和缺点
a. ID3算法:
以信息增益为准则选择信息增益最大的属性。
优点:计算复杂度不够,输出结果易于理解。
缺点:1)信息增益对可取值数目较多的属性有所偏好,比如通过ID号可将每个样本分成一类,但是没有意义。2)ID3只能对离散属性的数据集构造决策树。
鉴于以上缺点,后来出现了C4.5算法。
b. C4.5算法:
以信息增益率为准则选择属性。
优点:1)抑制可取值较多的属性,增强泛化性能。2)在树的构造过程中可以进行剪枝,缓解过拟合;3)能够对连续属性进行离散化处理(二分法);4)能够对缺失值进行处理;
缺点:构造树的过程需要对数据集进行多次顺序扫描和排序,导致算法低效。
4. ID3,C4.5,CART算法对比
a. 工程差异
ID3和C4.5只能做分类,CART(分类回归树)不仅可以做分类(0/1)还可以做回归(0-1)。
b. 树结构差异
C4.5子节点是可以多分的,而CART是无数个二叉子节点;以此拓展出以CART分类树为基础的“树群”Random forest , 和以CART回归树为基础的“树群”GBDT。
c. 样本数据的差异
ID3只能对离散变量进行处理,C4.5和CART可以处理连续和离散两种自变量;ID3对缺失值敏感,而C4.5和CART对缺失值可以进行多种方式的处理;只从样本量考虑,小样本建议考虑C4.5、大样本建议考虑CART。C4.5处理过程中需对数据集进行多次排序,处理成本耗时较高,而CART本身是一种大样本的统计方法,小样本处理下泛化误差较大。