机器学习算法——决策树总结

决策树算法详解
本文介绍了决策树学习的目的及决策树与逻辑回归的区别,并详细对比了ID3、C4.5和CART三种决策树算法的优缺点,帮助读者了解不同算法的应用场景。

1. 决策树学习的目的:从数据样本集中归纳出一组具有分类能力的分类规则。

2. 树模型和线性模型有什么区别呢?

树形模型是一个一个特征进行处理,之前线性模型是所有特征给予权重相加得到一个新的值。决策树与逻辑回归的分类区别也在于此另外逻辑回归只能找到线性分割,而决策树可以找到非线性分割。

3. ID3C4.5算法的优点和缺点

a. ID3算法:
以信息增益为准则选择信息增益最大的属性。

优点:计算复杂度不够,输出结果易于理解。

缺点:1)信息增益对可取值数目较多的属性有所偏好,比如通过ID号可将每个样本分成一类,但是没有意义。2ID3只能对离散属性的数据集构造决策树。
鉴于以上缺点,后来出现了C4.5算法。

b. C4.5算法:
以信息增益率为准则选择属性。

优点:1抑制可取值较多的属性,增强泛化性能2在树的构造过程中可以进行剪枝,缓解过拟合;3)能够对连续属性进行离散化处理(二分法);4)能够对缺失值进行处理;
缺点:构造树的过程需要对数据集进行多次顺序扫描和排序,导致算法低效

4. ID3C4.5CART算法对比

a. 工程差异

ID3C4.5只能做分类,CART(分类回归树)不仅可以做分类(0/1)还可以做回归(0-1

b. 树结构差异

C4.5子节点是可以多分的,而CART是无数个二叉子节点;以此拓展出以CART分类树为基础的“树群”Random forest CART回归树为基础的“树群”GBDT

c. 样本数据的差异

ID3只能对离散变量进行处理,C4.5CART可以处理连续和离散两种自变量ID3对缺失值敏感,而C4.5CART对缺失值可以进行多种方式的处理;只从样本量考虑,小样本建议考虑C4.5、大样本建议考虑CARTC4.5处理过程中需对数据集进行多次排序,处理成本耗时较高,而CART本身是一种大样本的统计方法,小样本处理下泛化误差较大

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值