机器学习之决策树

最新推荐文章于 2021-05-23 23:51:07 发布

原创最新推荐文章于 2021-05-23 23:51:07 发布 · 138 阅读

0 ·

CC 4.0 BY-SA版权

机器学习专栏收录该内容

2 篇文章

订阅专栏

博客核心介绍决策树构建的三种方法，包括ID3算法，通过信息增益选取分裂特征；C4.5算法，解决了ID3无法处理连续型特征等不足，依据信息增益率选取分裂特征；CART算法，分支特征度量指标是Gini指标。

这里仅做核心介绍，关于决策树的详细介绍请看其他机器学习书籍。
决策树的构建根据其分支依据（ID3算法, C4.5算法, CART算法）大致有三种方法：

一、ID3算法：

ID3算法是说在树分裂时选取能获得最高信息增益的特征进行分裂。什么意思呢？就是说我们要建立决策树嘛，首先得找一个特征做为树根，对于众多的特征，到底选哪个呢？当选择某个特征feature_1做为树根时,分裂的分支数就是feature_1特征的取值种类，那么到第二层选择分裂节点时又面临当初选择树根时的抉择。聪明的科学家们发现如果我们用一个叫做信息增益的东西来选取根节点，决策树构建即快又矮。那什么是信息增益呢？
首先从熵谈起：

1.熵

在决策树的构建中我们可以理解熵就是用来衡量样本纯度的指标：
$\sum_{i=1}^N p_i log_2(p_i);\quad p_i = \frac{\vert C_i \vert}{n}$
其中：Ci 表示i类的样本数，n表示样本总数。假设我们有m类，每一类样本所占的比列就是pi。

2.信息增益

信息增益就是计算分支属性对于样本集分类好坏程度的度量：
$feature_1) = Entropy(S) - \sum_{i=1}^n \frac{\lvert S_i \lvert}{\lvert S \lvert} Entropy(S_i)$
其中：
$∑i=1n∣Si∣∣S∣Entropy(Si)\sum_{i=1}^n \frac{\lvert S_i \lvert}{\lvert S \lvert} Entropy(S_i)$ 表示依据feature_1划分后的总信息熵。
$E n t r o p y (S)$ 表示划分前的总信息熵。
使得Gain(S, feature_1)最大的那个特征即为本次选择的分裂特征。

二、C4.5算法

ID3存在两个缺点:
1.无法处理连续型特征。
2.使用信息增益作为分裂的依据，会导致模型在选择分裂特征时，倾向于选择分叉比较多的特征。
C4.5解决了ID3存在的不足。在C4.5中提出了“分裂信息”的概念。
$SplitInfo_A(S) = - \sum_{j=1}^m \frac{\lvert S_i \lvert}{\vert S \vert}log_2 \frac{\lvert S_i \lvert}{\vert S \vert}$
其中，训练数据集S通过特征A的m种取值将数据集划分为m个子数据集，|Sj|表示第j个子数据集中的样本个数，|S|表示划分之前数据集中样本总数量。
而通过特征A分裂之后样本集的信息增益为：
$InfoGain(S, A) = E(S) - E_A(S)$
则通过特征A分裂后样本集的信息增益率为：
$\frac{InfoGain(S, A)}{SplitInfo_A(S)}$
C4.5就是根据InfoGainRation来作为选取分离特征的依据的。通过C4.5算法构造决策树时，信息增益率最大的特征即为当前节点的分裂特征，随着递归计算，到后期则选择相对比较大的信息增益率的特征作为分裂特征。

三、CART算法

CART算法在分支处理中分支特征的度量指标是Gini指标：
$\sum_{i=1}^m p_i^2; \quad p_i = \frac{\lvert C_i \lvert}{\vert S \vert}$
列如：feature有两种取值，则该特征作为分支特征，其Gini指标为：
$\frac{\lvert S_1 \lvert}{\lvert S \lvert} Gini(S_1) + \frac{\lvert S_2 \lvert}{\lvert S \lvert}Gini(S_2)$