决策树基本概念

信息量

I=log⁡2mI=\log_2mI=log2m

如果两队比赛,只有两个结果,m=2。I=1,信息量为1

世界杯32支队伍,冠军的信息量I=log⁡232=5I=\log_232=5I=log232=5

上面公式有个前提,就是m情况产生的概率均等

事件出现的概率越小,信息量越大。信息量的多少是与事件发生频繁程度大小(概率大小)恰好相反。

H(Xi)=−log⁡PH(X_i)=-\log PH(Xi)=logP

XiX_iXi表示一个发生的事件

P表示这个事件发生的先验概率

假设中国乒乓球队和巴西乒乓球队历史交手64次,胜63次。先验概率63/64

中国获胜信息量 H(Xi)=−log26364=0.023H(X_i)=-log_2{{63}\over{64}}=0.023H(Xi)=log26463=0.023

表示一个随机变量的复杂性或者不确定性。

信息熵公式

H(X)=−∑i=1npilog⁡piH(X)=-\sum\limits_{i=1}^np_i\log p_iH(X)=i=1npilogpi

负号是为了确保信息一定是正数或者0

X表示样本集

n表示样本集合中类别个数

PiP_iPi表示第i个类的概率

中国乒乓球队和巴西乒乓球队的信息熵为

0.023∗6364+6∗164≈0.11640.023*{63 \over 64} + 6*{1 \over 64}≈0.11640.0236463+66410.1164

条件熵

在已知随机变量X的条件下随机变量Y的不确定性。

H(Y∣X)=∑i=1nP(X=xi)H(Y∣X=xi)H(Y|X)=\sum\limits_{i=1}^n P(X=x_i)H(Y|X=x_i)H(YX)=i=1nP(X=xi)H(YX=xi)

面积价格

面积的条件熵

大面积2高1中,中面积2中,小面积1高1中1低

H(D|面积)=p(大)H(D|大)+p(中)H(D|中)+p(小)H(D|小)

=[38∗−(23log223+13log213)]+[28∗−(22log222]+[38∗−(13log213+13log213+13log213)][{3 \over 8 }* -({2\over3}log_2{2\over3}+{1\over3}log_2{1\over3}) ]+[{2 \over 8 }* -({2\over2}log_2{2\over2}]+[{3 \over 8 }* -({1\over3}log_2{1\over3}+{1\over3}log_2{1\over3}+{1\over3}log_2{1\over3})][83(32log232+31log231)]+[82(22log222]+[83(31log231+31log231+31log231)]

=0.344+0+0.593

=0.25

信息增益

得知已知特征X的信息使得Y的信息的不确定减少程度

特征A对训练集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差

g(D,A)=H(D)-H(D|A)

也就是 信息增益=信息熵-条件熵

信息增益大表明信息增多,信息增多,则不确定性就越小。

类别 的信息熵

H(D)=−(38log238+48log248+18log218)-({3\over8}log_2{3\over8}+{4\over8}log_2{4\over8}+{1\over8}log_2{1\over8})(83log283+84log284+81log281)

=-(-0.531-0.5-0.375)

=1.41

面积的信息增益:

g(D,面积)=H(D)-H(D|面积)

=1.41-0.25=1.16

信息增益率

特征A对训练数据集D的信息增益比定义为其信息增益与训练数据D关于特征A的值的熵HA(D)之比

gR(D,A)=g(D,A)HA(D)=H(D)−H(D∣A)HA(D)g_R(D,A)={{g(D,A)}\over{H_A(D)}}={{H(D)-H(D|A)}\over{H_A(D)}}gR(D,A)=HA(D)g(D,A)=HA(D)H(D)H(DA)

HA(D)=−∑i=1n∣Di∣∣D∣log2∣Di∣∣D∣H_A(D)=-\sum\limits_{i=1}^n{{|D_i|}\over{|D|}}log_2{{|D_i|}\over{|D|}}HA(D)=i=1nDDilog2DDi

也就是 信息增益率=$该条件信息增益 \over 该条件信息熵 $

面积的信息熵:

H(面积)=−(38log238+28log228+38log238)-({3\over8}log_2{3\over8}+{2\over8}log_2{2\over8}+{3\over8}log_2{3\over8})(83log283+82log282+83log283)

=-(-0.53-0.5 -0.53)=1.56

面积的信息增益率:

gR(D,面积)=面积的信息增益面积的信息熵g_R(D,面积)={面积的信息增益 \over 面积的信息熵}gR(D,)=

=1.16/1.56=0.74

gini系数

Gini(D)=1−∑i=1npi2Gini(D)=1-\sum\limits_{i=1}^n p_i^2Gini(D)=1i=1npi2

基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。

决策树

就是根据一定的策略对特征进行分类,当然策略主要就是上面的策略

ID3

用信息增益大小来判断当前节点应该用什么特征来构建决策树,用计算出的信息增益最大的特征来建立决策树的当前节点。

缺点

1.没有考虑连续特征

2.在相同条件下,取值比较多的特征比取值少的特征信息增益大

3.对于缺失值的情况没有做考虑

4.没有考虑过拟合的问题

C4.5

C4.5算法流程与ID3相类似,只不过将信息增益改为信息增益率

缺点

1.由于决策树算法非常容易过拟合,因此对于生成的决策树必须要进行剪枝。

2.C4.5生成的是多叉树,即一个父节点可以有多个节点。很多时候,在计算机中二叉树模型会比多叉树运算效率高

3.C4.5只能用于分类,如果能将决策树用于回归的话可以扩大它的使用范围

4.C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算

CART使用gini系数分类

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值