决策树模型简介

决策树算法简介

概述

决策树是一种基本的分类和回归模型,在使用需要考虑三个方面的问题:1. 分类特征该如何选取;2. 决策树该如何生成;3. 决策树该如何减枝。

特征选择

决策数的特征选择有两个方法一个是基于信息熵一个是基于基尼指数的。一般我们将一个发生概率为p(x)的随机变量x的信息量表示为:
− l o g ( p ( x ) ) -log(p(x)) log(p(x))
信息量越小表示这个随机变量可以提供的信息越少,当该随机量的出现概率为1时,它的信息量就为0。换句话说就是信息量约小,随机变量x的不确定性就越小。所以我们可以对信息量取所有随机变量的期望来表示所有随机变量的不确定度,也就是信息熵:
H ( X ) = − ∑ i = 1 n p i l o g p i H(X)=-\sum_{i=1}^np_ilogp_i H(X)=i=1npilogpi
以伯努利分布为例,它的信息熵和概率之间的关系可以表示为:
H ( p ) = − p l o g p − ( 1 − p ) l o g ( 1 − p ) H(p)=-plogp-(1-p)log(1-p) H(p)=plogp(1p)log(1p)
当概率为p=0.5时该信息熵最大,表示此时两个随机变量的随机性是最大的,55开(卡卡西)。
在决策树中我们是要构建的一个条件概率,是需要知道在已知随机变量X的条件下,Y的不确定性,也就是:
H ( Y ∣ X ) = ∑ i = 1 n p i H ( Y ∣ X = x i ) H(Y|X)=\sum_{i=1}^np_iH(Y|X=x_i) H(YX)=i=1npiH(YX=xi)
这个就表示X给定的条件下,条件概率分布的信息熵对X的数学期望。
有了上述公式,我们可以计算:
H ( Y ) − H ( Y ∣ X ) H(Y)-H(Y|X) H(Y)H(YX)
H ( Y ) H(Y) H(Y)表示类别Y的信息熵, H ( Y ∣ X ) H(Y|X) H(YX)表示X条件下的信息熵,两者相减就表示信息增益。一般认为信息增益大的特征具有更强的分类能力。信息增益大可以理解为X的条件信息熵小,也就是特征X的分类不确定性小。
基尼指数也有类似的效果,只是计算公式略有区别。

决策树减枝

在通过信息增益和基尼指数生成决策树时,在没有额外限制下,会生成一个非常复杂的决策树。这种决策树很容易出现过拟合,所以需要采取减枝处理。决策树的剪枝往往通过极小化决策树整体的损失函数来实现。
内容参考《统计学习方法》

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值