决策树算法详解-优快云博客

本文链接：https://blog.youkuaiyun.com/siyue0211/article/details/80391312

决策树

接着上篇文章决策树1

基尼指数

CART（classification and regression tree）决策树使用“基尼指数”来选择划分属性，数据集的纯度此时用基尼值来度量：

$Gini(D) = \sum_{k=1}^{\gamma}{\sum_{k' != k }}{p_kp_k'}$

$= 1 - \sum_{k=1}^{\gamma}{p_k^2}$

其中 $\gamma$ 表示分类的类数。直观的说，Gini(D)反映了从数据集D中随机抽取两个样本，其类别标记不一样的概率。因此Gini(D)越小，则数据集纯度越高。

属性a的基尼指数定义为：

$GiniIndex(D, a) = \sum_{v=1}^{V}{\frac{|D^v|}{|D|}Gini(D^v)}$

于是，我们在候选属性集合中选择基尼指数最小的属性作为最优划分。

剪枝处理

剪枝是决策树学习算法对付过拟合的主要手段，剪枝处理主要分为两种：预剪枝(prepruning)和后剪枝(postpruning)。

预剪枝
预剪枝是指在决策树生成的过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化能力的提升，则停止划分并将当前结点标记为叶结点。
后剪枝
后剪枝是先从训练集生成一颗完整的决策树，然后自底向上的对非叶结点进行考察，如将该结点对应的子树替换为叶结点能带来泛化能力的提升，则将该子树替换为叶结点。

连续值处理

我们现在只能对离散的属性来生成决策树，那么连续值又该如何处理呢？

由于连续属性的可取值不再有限，因此不可能直接用连续属性的可取值对结点进行划分。因此要使用属性离散化，最简单的是使用二分法对属性进行处理。

举个例子，我们的西瓜新加了一个属性：含糖度，很显然这是一个连续值。那么首先我们对我们所有样本按照含糖度进行排序，例如有5个样本。然后对相邻的两两进行加和，比如含糖度{1，2， 3， 4， 5 }，加和之后为{3， 5，7， 9}。然后把这四个值每个拿出来当作划分点，找出一个划分点的信息增益最高作为最优划分点。

注意，和离散属性不同，如果当前结点划分属性为连续型属性，该属性无需从候选划分属性中删除，之后还可以继续使用。