《机器学习》笔记--决策树_决策树怎么显示每个节点坏样本占比-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_43209903/article/details/97700196

本文详细介绍了决策树的学习过程，包括基本流程、划分选择中的信息增益和基尼指数，以及剪枝处理的预剪枝和后剪枝策略。信息增益和基尼指数用于衡量划分属性的效果，剪枝处理则用于防止过拟合，提高决策树的泛化能力。此外，还讨论了连续属性处理和缺失值处理的方法。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

决策树

基本流程

一般的，一棵决策树包含一个根结点、若干个内部结点和若干个叶结点，叶结点对应于决策结果，其他每个结点则对应于一个属性测试；每个结点包含的样本集合根据属性测试的结果被划分到子结点中；根结点包含样本全集，从根结点到每个叶结点的路径对应了一个判定测试序列.决策树学习的目的是了产生一棵泛化能力强，即处理未见示例能力强的决策树，其基本流程遵循简单且直观的“分而治之”（divide-and-conquer）策略。

在这里插入图片描述

决策树基本算法中，有三种情形会导致递归返回：

当前结点包含的样本全属于同一类别，无需划分。
当前属性集为空，或是所有样本在所有属性上取值相同，无法划分

把当前结点标记为叶结点，并将其类别设定为样本最多的类别

当前结点包含的样本集合为空，不能划分

把当前结点标记为叶结点，但将其类别设定为其父结点所含样本最多的类别。

划分选择

一般而言，随着划分过程不断进行，我们希望决策树的分支结点所包含的样本尽可能属于同一类别，即结点的“纯度”（purity）越来越高.

信息增益(ID3)

“信息熵”（information entropy）是度量样本集合纯度最常用的一种指标.

假定当前样本集合D中第k类样本所占的比例为 $p_k(k = 1,2,...,|Y|)$ ，则D的信息熵定义为
$\operatorname{Ent}(D)=-\sum_{k=1}^{|\mathcal{Y}|} p_{k} \log _{2} p_{k}$
$\operatorname{Ent}(D)$ 的值越小则D的纯度越高。

Ent(D)的最小值为0，最大值为 $log_2|\mathcal{Y}|$

证明：

最小值：某个 $p_k$ 为1其余为0时。

最大值可以引入带约束的拉格朗日乘子求导得到。

假定离散属性a有V个可能的取值 $\left\{a^{1}, a^{2}, \ldots, a^{V}\right\}$ ，若使用a来对样本集D进行划分，则会产生V个分支结点，其中第v个分支结点包含了D中所有在属性a上取值为 $a^v$ 的样本，记为 $D^v$ 可根据上式计算出 $D^v$ 的信息熵。由于不同的分支结点所包含的样本数不同，给分支结点赋予权重 $\left|D^{v}\right| /|D|$ ，即样本数越多的分支结点影响越大，于是可计算出属性a对样本集D进行划分所获得的“信息增益”。
$\operatorname{Gain}(D, a)=\operatorname{Ent}(D)-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Ent}\left(D^{v}\right)$
一般而言，信息增益越大，则意味着使用属性a来进行划分所获得的“纯度提升”越大.因此，我们可用信息增益来进行决策树的划分属性选择 $a_{*}=\underset{a \in A}{\arg \max } \operatorname{Gain}(D, a)$

###增益率(C4.5)

实际上，信息增益准则对可取值数目较多的属性有所偏好，为减少这种偏好可能带来的不利影响，著名的C4.5决策树算法[Quinlan，1993]不直接使用信息增益，而是使用“增益率”（gain ratio）来选择最优划分属性.采用与式（4.2）相同的符号表示.增益率定义为
$a)=\frac{\operatorname{Gain}(D, a)}{\operatorname{IV}(a)}$
其中
$\mathrm{IV}(a)=-\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \log _{2} \frac{\left|D^{v}\right|}{|D|}$
称为属性a的“固有值”。

属性a的可能取值数目越多（即V越大），则IV（a）的值通常会越大。

需注意的是，增益率准则对可取值数目较少的属性有所偏好，因此，C4.5掌法并不是直接选择增益率最大的候选划分属性，而是使用了一个启发式[Quinlan，1993]：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的.

基尼指数（CART）

CART决策树使用“基尼指数”来选择划分属性。数据集D的纯度可用基尼值来度量：
$\begin{aligned} \operatorname{Gini}(D) &=\sum_{k=1}^{|\mathcal{Y}|} \sum_{k^{\prime} \neq k} p_{k} p_{k^{\prime}} \\ &=1-\sum_{k=1}^{|\mathcal{Y}|} p_{k}^{2} \end{aligned}$
直观来说，Gini（D）反映了从数据集D中随机抽取两个样本，其类别标记不一致的概率，因此，Gini（D）越小，则数据集D的纯度越高.

属性a的基尼指数定义为：
$a)=\sum_{v=1}^{V} \frac{\left|D^{v}\right|}{|D|} \operatorname{Gini}\left(D^{v}\right)$
于是，我们在候选属性集合A中，选择那个使得划分后基尼指数最小的属性作为最优划分属性，即 $a_{*}=\underset{a \in A}{\arg \min }$ Gini index $(D, a)$

剪枝处理

剪枝是决策树学习算法对付“过拟合”的主要手段。

决策树剪枝的基本策略有“预剪枝”（prepruning）和“后剪枝”（post-pruning）[Quinlan，1993].预剪枝是指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点；后剪枝则是先从训练集生成一棵完整的决策树，然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能带来决策树泛化性能提升，则将该子树替换为叶结点.

预剪枝

在这里插入图片描述

对比图4.6和图4.5可看出，预剪枝使得决策树的很多分支都没有“展开”，这不仅降低了过拟合的风险，还显著减少了决策树的训练时间开销和测试时间开销，但另一方面，有些分支的当前划分虽不能提升泛化性能、甚至可能导致泛化性能暂时下降，但在其基础上进行的后续划分却有可能导致性能显著提高；预剪枝基于“贪心”本质禁止这些分支展开，给预剪枝决策树带来了欠拟合的风险.

后剪枝

在这里插入图片描述

对比图4.7和图4.6可看出，后剪枝决策树通常比预剪枝决策树保留了更多的分支.一般情形下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树，但后剪枝过程是在生成完全决策树之后进行的，并且要自底向上地对树中的所有非叶结点进行逐一考察，因此其训练时间开销比未剪枝决策树和预剪枝决策树都要大得多.

连续与缺失值

由于连续属性的可取值数目不再有限，因此，不能直接根据连续属性的可取值来对结点进行划分.此时，连续属性离散化技术可派上用场，最简单的策略是采用二分法（bi-partition）对连续属性进行处理，这正是C4.5决策树算法中采用的机制[Quinlan，1993].

给定样本集D和连续属性a，假定a在D上出现了n个不同的取值，将这些值从小到大进行排序，记为 $\left\{a^{1}, a^{2}, \ldots, a^{n}\right\}$ 。基于划分点t可将D分为子集 $D_{t}^{-}$ 和 $D_{t}^{+}$ ，其中 $D_{t}^{-}$ 包含那些在属性a上取值不大于t的样本，而 $D_{t}^{+}$ 则包含那些在属性a上取值大于t的样本，显然，对相邻的属性取值 $a^{i}$ 与 $a^{i+1}$ 来说，t在区间 $\left[a^{i}, a^{i+1}\right)$ 中取任意值所产生的划分结果相同。因此，对连续属性a，我们可考察包含n-1个元素的候选划分点集合
$T_{a}=\left\{\frac{a^{i}+a^{i+1}}{2} | 1 \leqslant i \leqslant n-1\right\}$
即把区间 $\left[a^{i}, a^{i+1}\right)$ 的中位点 $\frac{a^{i}+a^{i+1}}{2}$ 作为候选划分点。然后，我们就可像离散属性值一样来考察这些划分点，选取最优的划分点进行样本集合的划分。
$\begin{aligned} \operatorname{Gain}(D, a) &=\max _{t \in x_{a}} \operatorname{Gain}(D, a, t) \\ &=\max _{t \in T_{a}} \operatorname{Ent}(D)-\sum_{\lambda \in\{-,+\}} \frac{\left|D_{t}^{\lambda}\right|}{|D|} \operatorname{Ent}\left(D_{t}^{\lambda}\right) \end{aligned}$
其中Gain（D，a，t）是样本集D基于划分点t二分后的信息增益，于是，我们就可选择使Gain（D，a，t）最大化的划分点.

需注意的是，与离散属性不同，若当前结点划分属性为连续属性，该属性还可作为其后代结点的划分属性.

缺失值处理

现实任务中常会遇到不完整样本，即样本的某些属性值缺失。

两个问题：

如何在属性值缺失的情况下进行划分属性选择？

给定训练集D和属性a，令 $\tilde{D}$ 表示D中在属性a上没有缺失值的样本子集。我们仅可根据 $\tilde{D}$ 来判断属性a的优劣。假定属性a有V个可取值 $\left\{a^{1}, a^{2}, \ldots, a^{V}\right\}$ ，令 $\tilde{D}^{v}$ 表示 $\tilde{D}$ 中在属性a上取值为 $a^v$ 的样本子集， $\tilde{D}_{k}$ 表示 $\tilde{D}$ 中属于第k类 $\dots,|\mathcal{Y}|)$ 的样本子集，则显然有 $\tilde{D}=\bigcup_{k=1}^{|y|} \tilde{D}_{k}$ , $\tilde{D}=\bigcup_{v=1}^{V} \tilde{D}^{v}$ 。假定我们为每个样本 $x$ 赋予一个权重 $w_{x}$ ，并定义：
$\rho=\frac{\sum_{\boldsymbol{x} \in \tilde{D}} w_{\boldsymbol{x}}}{\sum_{\boldsymbol{x} \in D} w_{\boldsymbol{x}}}$

$\tilde{p}_{k}=\frac{\sum_{\boldsymbol{x} \in \tilde{D}_{k}} w_{\boldsymbol{x}}}{\sum_{\boldsymbol{x} \in \tilde{D}} w_{\boldsymbol{x}}} \quad(1 \leqslant k \leqslant|\mathcal{Y}|)$

$\tilde{r}_{v}=\frac{\sum_{\boldsymbol{x} \in \tilde{D}^{v}} w_{\boldsymbol{x}}}{\sum_{\boldsymbol{x} \in \tilde{D}} w_{\boldsymbol{x}}} \quad(1 \leqslant v \leqslant V)$

直观地看，对属性a， $\rho$ 表示无缺失值样本所占的比例， $\widetilde{p}_{k}$ 表示无缺失值样本中第k类所占的比例， $\tilde{r}_{v}$ 则表示无缺失值样本中在属性a上取值 $a^v$ 的样本所占的比例。 $\sum_{k=1}^{|\mathcal{Y}|} \tilde{p}_{k}=1, \sum_{v=1}^{V} \tilde{r}_{v}=1$
$\begin{aligned} \operatorname{Gain}(D, a) &=\rho \times \operatorname{Gain}(\tilde{D}, a) \\ &=\rho \times\left(\operatorname{Ent}(\tilde{D})-\sum_{v=1}^{V} \tilde{r}_{v} \operatorname{Ent}\left(\tilde{D}^{v}\right)\right) \end{aligned}$
其中，
$\operatorname{Ent}(\tilde{D})=-\sum_{k=1}^{|\mathcal{Y}|} \tilde{p}_{k} \log _{2} \tilde{p}_{k}$

给定划分属性，若样本在该属性上的值缺失，如何对样本进行划分？

对问题（2），若样本 $x$ 在划分属性a上的取值已知，则将a划入与其取值对应的子结点，且样本权值在子结点中保持为 $w_x$ 若样本z在划分属性a上的取值未知，则将 $x$ 同时划入所有子结点，且样本权值在与属性 $a^v$ 对应的子结点中调整为 $\tilde{r}_{v} \cdot w_{x}$ ；直观地看，这就是让同一个样本以不同的概率划入到不同的子结点中去.