决策树(一)

最新推荐文章于 2022-05-11 10:56:33 发布

Doooer

最新推荐文章于 2022-05-11 10:56:33 发布

阅读量801

点赞数

CC 4.0 BY-SA版权

分类专栏：机器学习算法总结

本文链接：https://blog.youkuaiyun.com/YQMind/article/details/80700400

39 篇文章

订阅专栏

本文主要介绍了决策树的基本概念，包括根节点、内部节点和叶节点的定义，以及叶节点的三种情况。讨论了决策树划分选择的重要步骤，如信息熵、信息增益、增益率和基尼指数等不同准则，并对比了ID3、C4.5和CART决策树在选择划分属性时的区别。最后提到了CART树在处理回归问题的应用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考：《机器学习》周志华

想对决策树做一个简单的回顾和总结，因为发现在Random Forest, GBDT和XGBoost中的基分类器中起到重要的作用。

决策树是非线性的。

定义

一般的，一颗决策树包含一个根节点，若干个内部节点和若干个叶子节点；叶节点对应于决策结果，根节点和内部节点对应一个属性。

叶节点的三种情况

划分选择
决策树中关键的一步是：如何选择划分属性，即内部节点。我们希望落入叶子节点的样本尽可能地属于同一个类别，即叶子节点的纯度越高越好。

下面，我们介绍选择划分属性的不同方式：

ID3决策树使用的划分准则是信息增益(information gain)
首先介绍什么是熵：熵衡量事物的不确定性。熵越小，越确定，即样本纯度越高。

信息熵：

$-\sum_{i=1}^{k}p_ilog_2(p_i)$ ，其中 $k$ 表示类别总数， $p_i$ 表示样本 $D$ 中第 $i$ 类别的样本所占的比例。

信息增益：
选择属性a进行划分带来的信息增益是：
$\sum_{v=1}^V \frac{ |D_v|}{ |D|}Ent(D_v)$ ，其中 $V$ 是属性 $a$ 的取值个数， $D_v$ 是属性 $a$ 的取值为 $v$ 的样本个数。

信息增益越大，意味着该属性进行划分之后，样本纯度更高一些。因此，在ID3中，划分属性选择方法为： $a∗=arg⁡maxa∈AGain(D,a)a_* = \arg max_{a \in A} Gain(D, a)$ 。其中 $A$ 为所有属性。

信息增益准则对可取值数目较多的属性有所偏好。
C4.5决策树使用的划分准则是增益率(gain ratio)
$Gain_ratio(D,a)=Gain(D,a)IV(a)Gain\_ratio(D, a) = \frac{Gain(D, a)}{IV(a)}$
其中 $-\sum_{v=1}^V \frac{|D_v|}{|D|}log_2 \frac{|D_v|}{|D|}$ 。属性 $a$ 的可能取值数目越多， $I V (a)$ 的值通常会越大。
增益率准则对可取值数目较少的属性有所偏好。

！！！C4.5算法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式：先从候选划分属性中选出信息增益高于平均水平的属性，再从中选择增益率最高的。

CART树使用基尼指数(Gini index)
$\sum_{i=1}^k p_i^2$ ，其中 $k$ 是样本类别数。
$G i n i (D)$ 反映了从样本集 $D$ 中抽取两个样本，它们类别不同的概率。因此， $G i n i (D)$ 越小，样本集 $D$ 的纯度越高。
$Gini_index(D,a)=∑v=1V∣Dv∣∣D∣Gini(Dv)Gini\_index (D, a) = \sum_{v=1}^V \frac{|D_v|}{|D|} Gini(D_v)$ ，选择 $Gini\_index$ 最小的属性作为划分属性。