决策树

决策树与随机森林详解

最新推荐文章于 2021-05-27 11:01:18 发布

原创最新推荐文章于 2021-05-27 11:01:18 发布 · 370 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#机器学习

决策树

决策树-熵

P(X,Y)=P(X)*P(Y) X和Y两个事件相互独立 Log(XY)=Log(X)+Log(Y)
H(X),H(Y)当成它们发生的不确定性
P(几率越大)->H(X)值越小
P(几率越小)->H(X)值越大

这里的P（i）指的就是事情发生的概率，也就是说内部越混乱，每一件事情发送的概率越低，熵就越大

构造决策树的基本想法

是随着树深度的增加，节点的熵迅速地降低，熵减低地速度越快越好，这样才有望得到一个高度最矮的决策树

举个例子

在这里插入图片描述
从上面的数据可以看到，在没有给定任何天气信息时，根据历史数据，新的一天打球的概率为9/14，不打的概率为5/14，此时的熵为：-9/14log(2)9/14-5/14log(2)5/14=0.940

下面做一些划分

在这里插入图片描述
则当outlook=sunny时，entropy=0.971
outlook=overcast entropy=0
outlook=rainy entropy=0.971
所以当outlook取值为sunny，overcast,rainy的概率分别为5/14 4/14 5/14
所以当已变量为outlook，信息熵为：5/14×0.971+4/14×0+5/14×0.971=0.693

这样的话系统熵就从0.940下降到了0.693，信息增益gain（outlook）为
0.940-0.693=0.247
同理可以计算的gain(temperature)=0.029;gain(humidity)=0.152;gain(windy)=0.048
gain(outlook)最大（即outlook在第一步使系统的信息熵下降的最快），所以决策树的根节点就选择了outlook
存在的缺陷：如果以每一次的活动id决定来作为14个分支节点，算出来熵为0，则信息增益最大化，那么此时可以是不行的，因为id与是否决定活动没有任何关系，所以引入“信息增益率”
C4.5：信息增益率=信息增益/自身的熵值。即如果自身的熵值非常大，也就是说不纯度越高，那么信息增益率也越低
评价函数：C(T)=∑(releaf) Nt·H(t)
所有叶子节点的累加和，H(t)是每一个叶子节点的熵值
（希望它越小越好，类似损失函数）