决策树算法精讲-优快云博客

本文链接：https://blog.youkuaiyun.com/qq_41978896/article/details/106608768

决策树算法简介

概述
特征选择
决策树减枝

概述

决策树是一种基本的分类和回归模型，在使用需要考虑三个方面的问题：1. 分类特征该如何选取；2. 决策树该如何生成；3. 决策树该如何减枝。

特征选择

决策数的特征选择有两个方法一个是基于信息熵一个是基于基尼指数的。一般我们将一个发生概率为p(x)的随机变量x的信息量表示为：
$- l o g (p (x))$
信息量越小表示这个随机变量可以提供的信息越少，当该随机量的出现概率为1时，它的信息量就为0。换句话说就是信息量约小，随机变量x的不确定性就越小。所以我们可以对信息量取所有随机变量的期望来表示所有随机变量的不确定度，也就是信息熵：
$H(X)=-\sum_{i=1}^np_ilogp_i$
以伯努利分布为例，它的信息熵和概率之间的关系可以表示为：
$H (p) = - p l o g p - (1 - p) l o g (1 - p)$
当概率为p=0.5时该信息熵最大，表示此时两个随机变量的随机性是最大的，55开（卡卡西）。
在决策树中我们是要构建的一个条件概率，是需要知道在已知随机变量X的条件下，Y的不确定性，也就是：
$H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)$
这个就表示X给定的条件下，条件概率分布的信息熵对X的数学期望。
有了上述公式，我们可以计算：
$H (Y) - H (Y ∣ X)$
$H (Y)$ 表示类别Y的信息熵， $H (Y ∣ X)$ 表示X条件下的信息熵，两者相减就表示信息增益。一般认为信息增益大的特征具有更强的分类能力。信息增益大可以理解为X的条件信息熵小，也就是特征X的分类不确定性小。
基尼指数也有类似的效果，只是计算公式略有区别。