信息量
I=log2mI=\log_2mI=log2m
如果两队比赛,只有两个结果,m=2。I=1,信息量为1
世界杯32支队伍,冠军的信息量I=log232=5I=\log_232=5I=log232=5
上面公式有个前提,就是m情况产生的概率均等
事件出现的概率越小,信息量越大。信息量的多少是与事件发生频繁程度大小(概率大小)恰好相反。
H(Xi)=−logPH(X_i)=-\log PH(Xi)=−logP
XiX_iXi表示一个发生的事件
P表示这个事件发生的先验概率
假设中国乒乓球队和巴西乒乓球队历史交手64次,胜63次。先验概率63/64
中国获胜信息量 H(Xi)=−log26364=0.023H(X_i)=-log_2{{63}\over{64}}=0.023H(Xi)=−log26463=0.023
熵
表示一个随机变量的复杂性或者不确定性。
信息熵公式
H(X)=−∑i=1npilogpiH(X)=-\sum\limits_{i=1}^np_i\log p_iH(X)=−i=1∑npilogpi
负号是为了确保信息一定是正数或者0
X表示样本集
n表示样本集合中类别个数
PiP_iPi表示第i个类的概率
中国乒乓球队和巴西乒乓球队的信息熵为
0.023∗6364+6∗164≈0.11640.023*{63 \over 64} + 6*{1 \over 64}≈0.11640.023∗6463+6∗641≈0.1164
条件熵
在已知随机变量X的条件下随机变量Y的不确定性。
H(Y∣X)=∑i=1nP(X=xi)H(Y∣X=xi)H(Y|X)=\sum\limits_{i=1}^n P(X=x_i)H(Y|X=x_i)H(Y∣X)=i=1∑nP(X=xi)H(Y∣X=xi)
面积 | 价格 |
---|---|
大 | 高 |
大 | 高 |
大 | 中 |
中 | 中 |
中 | 中 |
小 | 高 |
小 | 中 |
小 | 低 |
面积的条件熵
大面积2高1中,中面积2中,小面积1高1中1低
H(D|面积)=p(大)H(D|大)+p(中)H(D|中)+p(小)H(D|小)
=[38∗−(23log223+13log213)]+[28∗−(22log222]+[38∗−(13log213+13log213+13log213)][{3 \over 8 }* -({2\over3}log_2{2\over3}+{1\over3}log_2{1\over3}) ]+[{2 \over 8 }* -({2\over2}log_2{2\over2}]+[{3 \over 8 }* -({1\over3}log_2{1\over3}+{1\over3}log_2{1\over3}+{1\over3}log_2{1\over3})][83∗−(32log232+31log231)]+[82∗−(22log222]+[83∗−(31log231+31log231+31log231)]
=0.344+0+0.593
=0.25
信息增益
得知已知特征X的信息使得Y的信息的不确定减少程度
特征A对训练集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下的经验条件熵H(D|A)之差
g(D,A)=H(D)-H(D|A)
也就是 信息增益=信息熵-条件熵
信息增益大表明信息增多,信息增多,则不确定性就越小。
类别 的信息熵
H(D)=−(38log238+48log248+18log218)-({3\over8}log_2{3\over8}+{4\over8}log_2{4\over8}+{1\over8}log_2{1\over8})−(83log283+84log284+81log281)
=-(-0.531-0.5-0.375)
=1.41
面积的信息增益:
g(D,面积)=H(D)-H(D|面积)
=1.41-0.25=1.16
信息增益率
特征A对训练数据集D的信息增益比定义为其信息增益与训练数据D关于特征A的值的熵HA(D)之比
gR(D,A)=g(D,A)HA(D)=H(D)−H(D∣A)HA(D)g_R(D,A)={{g(D,A)}\over{H_A(D)}}={{H(D)-H(D|A)}\over{H_A(D)}}gR(D,A)=HA(D)g(D,A)=HA(D)H(D)−H(D∣A)
HA(D)=−∑i=1n∣Di∣∣D∣log2∣Di∣∣D∣H_A(D)=-\sum\limits_{i=1}^n{{|D_i|}\over{|D|}}log_2{{|D_i|}\over{|D|}}HA(D)=−i=1∑n∣D∣∣Di∣log2∣D∣∣Di∣
也就是 信息增益率=$该条件信息增益 \over 该条件信息熵 $
面积的信息熵:
H(面积)=−(38log238+28log228+38log238)-({3\over8}log_2{3\over8}+{2\over8}log_2{2\over8}+{3\over8}log_2{3\over8})−(83log283+82log282+83log283)
=-(-0.53-0.5 -0.53)=1.56
面积的信息增益率:
gR(D,面积)=面积的信息增益面积的信息熵g_R(D,面积)={面积的信息增益 \over 面积的信息熵}gR(D,面积)=面积的信息熵面积的信息增益
=1.16/1.56=0.74
gini系数
Gini(D)=1−∑i=1npi2Gini(D)=1-\sum\limits_{i=1}^n p_i^2Gini(D)=1−i=1∑npi2
基尼系数代表了模型的不纯度,基尼系数越小,则不纯度越低,特征越好。这和信息增益(比)是相反的。
决策树
就是根据一定的策略对特征进行分类,当然策略主要就是上面的策略
ID3
用信息增益大小来判断当前节点应该用什么特征来构建决策树,用计算出的信息增益最大的特征来建立决策树的当前节点。
缺点
1.没有考虑连续特征
2.在相同条件下,取值比较多的特征比取值少的特征信息增益大
3.对于缺失值的情况没有做考虑
4.没有考虑过拟合的问题
C4.5
C4.5算法流程与ID3相类似,只不过将信息增益改为信息增益率
缺点
1.由于决策树算法非常容易过拟合,因此对于生成的决策树必须要进行剪枝。
2.C4.5生成的是多叉树,即一个父节点可以有多个节点。很多时候,在计算机中二叉树模型会比多叉树运算效率高
3.C4.5只能用于分类,如果能将决策树用于回归的话可以扩大它的使用范围
4.C4.5由于使用了熵模型,里面有大量的耗时的对数运算,如果是连续值还有大量的排序运算