决策树是机器学习中非常经典的一类学习算法,它通过树的结构,利用树的分支来表示对样本特征的判断规则,从树的叶子节点所包含的训练样本中得到预测值。决策树如何生成决定了所能处理的数据类型和预测性能。主要的决策树算法包括ID3,C4.5, CART等。
1,ID3
ID3是由 Ross Quinlan在1986年提出的一种构造决策树的方法。用于处理标称型数据集,其构造过程如下:
输入训练数据是一组带有类别标记的样本,构造的结果是一棵多叉树。树的分支节点一般表示为一个逻辑判断,如形式为a=aj的逻辑判断,其中a是属性,aj是该属性的所有取值。
在该节点上选取能对该节点处的训练数据进行最优划分的属性。最后划分的标准是信息增益(Information Gain),即划分前后数据集的熵的差异。

本文介绍了决策树中的三种重要算法:ID3、C4.5和CART。ID3主要处理标称型数据,易过度拟合;C4.5对ID3进行了改进,能处理连续型数据和缺失值,且可剪枝;CART则适用于分类和回归问题,采用二元切分策略。
最低0.47元/天 解锁文章
341

被折叠的 条评论
为什么被折叠?



