
一、熵
熵(entropy)表示随机变量不确定性的度量。

变量XXX的取值xix_{i}xi,取这些值的概率为p(xi)p(x_{i})p(xi)
H(p)=−Σi=1np(xi)log(p(xi))H(p)=-\Sigma_{i=1}^{n} p(x_{i})log( p(x_{i}))H(p)=−Σi=1np(xi)log(p(xi))
二、联合熵
根据熵的定义,得到联合熵的表达式:
H(X,Y)=−Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))H(X,Y)=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j}))H(X,Y)=−Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))
三、条件熵
H(Y|X)表示在随机变量X确定的情况下,随机变量Y的不确定性
H(Y∣X)=H(X,Y)−H(X)=−Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))−(−Σi=1np(xi)log(p(xi)))(1)=−Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))−(−Σi=1nΣj=1mp(xi,yj)log(p(xi)))(2)=−Σi=1nΣj=1mp(xi,yj)(log(p(xi,yj))−log(p(xi)))(3)=−Σi=1nΣj=1mp(xi,yj)logp(xi,yj)p(xi)=−Σi=1nΣj=1mp(xi,yj)logp(yj∣X=xi)=−Σi=1nΣj=1mp(xi)p(yj∣X=xi))logp(yj∣X=xi)=−Σi=1np(xi)Σj=1mp(yj∣X=xi))logp(yj∣X=xi)=−Σi=1np(xi)H(Y∣X=xi)\begin{aligned}
H(Y|X)&=H(X,Y) - H(X)\\
&=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j})) - (-\Sigma_{i=1}^{n} p(x_{i})log( p(x_{i}))) (1)\\
&=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i},y_{j})) - (-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log( p(x_{i}))) (2)\\
&=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})(log( p(x_{i},y_{j})) -log( p(x_{i})) ) (3)\\
&=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})log\frac {p(x_{i},y_{j})} {p(x_{i})} \\
&=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i},y_{j})logp(y_{j}|X=x_{i}) \\
&=-\Sigma_{i=1}^{n}\Sigma_{j=1}^{m} p(x_{i}) p(y_{j}|X=x_{i}))logp(y_{j}|X=x_{i}) \\
&=-\Sigma_{i=1}^{n}p(x_{i})\Sigma_{j=1}^{m} p(y_{j}|X=x_{i}))logp(y_{j}|X=x_{i}) \\
&=-\Sigma_{i=1}^{n}p(x_{i}) H(Y|X=x_{i})
\end{aligned}H(Y∣X)=H(X,Y)−H(X)=−Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))−(−Σi=1np(xi)log(p(xi)))(1)=−Σi=1nΣj=1mp(xi,yj)log(p(xi,yj))−(−Σi=1nΣj=1mp(xi,yj)log(p(xi)))(2)=−Σi=1nΣj=1mp(xi,yj)(log(p(xi,yj))−log(p(xi)))(3)=−Σi=1nΣj=1mp(xi,yj)logp(xi)p(xi,yj)=−Σi=1nΣj=1mp(xi,yj)logp(yj∣X=xi)=−Σi=1nΣj=1mp(xi)p(yj∣X=xi))logp(yj∣X=xi)=−Σi=1np(xi)Σj=1mp(yj∣X=xi))logp(yj∣X=xi)=−Σi=1np(xi)H(Y∣X=xi)
四、信息增益(Information Gain)
信息增益表示得知特征A的信息而使得数据集D信息不确定性减少的程度
g(D,A)=H(D)−H(D∣A)g(D,A) = H(D) - H(D|A)g(D,A)=H(D)−H(D∣A)
采用信息增益作为判定方法,会倾向于去选择特征取值比较多的特征作为最优特征。那么,选择取值多的特征为甚就不好呢?(用ID作为区分特征,每个特征的属性中的样本少,特征与分类结果间没关系)
五、信息增益比
特征A的信息对数据集D信息增益比表示为特征A给数据集D带来的信息增益与数据集D的经验熵之比
gR(D,A)=g(D,A)H(D)g_{R}(D,A) = \frac{g(D,A)} {H(D)}gR(D,A)=H(D)g(D,A)
六、ID3算法
选取信息增益最大的特征作为分类特征。


七、C4.5算法
选取信息增益比最大的特征作为分类特征。C4.5生成决策树与ID3相似。
八、决策树剪枝
8.1 决策树损失函数


8.2 决策树剪枝


九、CART算法
回归树使用平方误差最小化准则,分类树使用Gini指数最小化准则
9.1 回归树


9.2 分类树
9.2.1 基尼指数



9.2.2 分类树


参考
[1] 李航 统计学习方法
515

被折叠的 条评论
为什么被折叠?



