提示:文章写完后,目录可以自动生成,如何生成可参考右边的帮助文档
文章目录
前言
熵的应用主要是在决策树方面,信息熵主要用于计算信息增益,信息增益的大小决定了再进行决策树构建时,哪些特征先决策。一般情况,选择信息增益的大的特征先决策,信息增益小的特征后决策
一、信息熵和信息增益计算公式
信息熵计算:
其中,K表示结果的分类,D表示样本总数, C k C_k Ck表示属于某个类别的样本数
H ( D ) = − ∑ k = 1 K ∣ C k ∣ ∣ D ∣ l o g ∣ C k ∣ ∣ D ∣ H(D)=-\sum_{k=1}^K\frac{|C_k|}{|D|}log\frac{|C_k|}{|D|} H(D)=−k=1∑K∣D∣∣Ck∣log∣D∣∣Ck∣
条件熵计算:
H ( D ∣ A ) = ∑ i = 1 n ∣ D i ∣ ∣ D ∣ H ( D i ) = − ∑ i = 1 n ∣ D i ∣ ∣ D ∣ ∑ k = 1 K ∣ D i k ∣ ∣ D i ∣ l o g ∣ D i k ∣ ∣ D i ∣ H(D|A)=\sum_{i=1}^n\frac{|D_i|}{|D|}H(D_i)=-\sum_{i=1}^n\frac{|D_i|}{|D|}\sum_{k=1}^K\frac{|D_{ik}|}{|D_i|}log\frac{|D_{ik}|}{|D_i|} H(D∣A)=i=1∑n∣D∣∣Di∣H(Di)=−i=1∑n∣D∣∣D