概述
决策树是一种基本的分类和回归模型,在使用需要考虑三个方面的问题:1. 分类特征该如何选取;2. 决策树该如何生成;3. 决策树该如何减枝。
特征选择
决策数的特征选择有两个方法一个是基于信息熵一个是基于基尼指数的。一般我们将一个发生概率为p(x)的随机变量x的信息量表示为:
−
l
o
g
(
p
(
x
)
)
-log(p(x))
−log(p(x))
信息量越小表示这个随机变量可以提供的信息越少,当该随机量的出现概率为1时,它的信息量就为0。换句话说就是信息量约小,随机变量x的不确定性就越小。所以我们可以对信息量取所有随机变量的期望来表示所有随机变量的不确定度,也就是信息熵:
H
(
X
)
=
−
∑
i
=
1
n
p
i
l
o
g
p
i
H(X)=-\sum_{i=1}^np_ilogp_i
H(X)=−i=1∑npilogpi
以伯努利分布为例,它的信息熵和概率之间的关系可以表示为:
H
(
p
)
=
−
p
l
o
g
p
−
(
1
−
p
)
l
o
g
(
1
−
p
)
H(p)=-plogp-(1-p)log(1-p)
H(p)=−plogp−(1−p)log(1−p)
当概率为p=0.5时该信息熵最大,表示此时两个随机变量的随机性是最大的,55开(卡卡西)。
在决策树中我们是要构建的一个条件概率,是需要知道在已知随机变量X的条件下,Y的不确定性,也就是:
H
(
Y
∣
X
)
=
∑
i
=
1
n
p
i
H
(
Y
∣
X
=
x
i
)
H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i)
H(Y∣X)=i=1∑npiH(Y∣X=xi)
这个就表示X给定的条件下,条件概率分布的信息熵对X的数学期望。
有了上述公式,我们可以计算:
H
(
Y
)
−
H
(
Y
∣
X
)
H(Y)-H(Y|X)
H(Y)−H(Y∣X)
H
(
Y
)
H(Y)
H(Y)表示类别Y的信息熵,
H
(
Y
∣
X
)
H(Y|X)
H(Y∣X)表示X条件下的信息熵,两者相减就表示信息增益。一般认为信息增益大的特征具有更强的分类能力。信息增益大可以理解为X的条件信息熵小,也就是特征X的分类不确定性小。
基尼指数也有类似的效果,只是计算公式略有区别。
决策树减枝
在通过信息增益和基尼指数生成决策树时,在没有额外限制下,会生成一个非常复杂的决策树。这种决策树很容易出现过拟合,所以需要采取减枝处理。决策树的剪枝往往通过极小化决策树整体的损失函数来实现。
内容参考《统计学习方法》