决策树
决策树通过分析样本的特征分布情况对实例进行分类或预测输出值。决策树每深入一层都是在选定特征向量划分特征空间,到达叶结点时,即可得到实例对应的类别或输出值。
信息增益
决策树每深入一层都需要选定一个特征向量,那么选定哪个特征向量会更有利于分类呢,这需要用到信息增益。
熵
首先我们要了解信息熵,熵是表示随机变量不确定性的度量,熵越大那么随机变量的不确定性就越大。这个概念借用自热力学中的熵,热力学中的熵是体系混乱程度的度量,熵越大,体系越混乱,越混乱,自然不确定性就越大。
设X是一个取有限个值的离散随机变量,在决策树中它是特征向量也是实例归属的种类(有限个离散值),当为特征向量时,特征向量亦有有限个离散取值。
例如球有三种属性
- X(1)X^{(1)}X(1)材质:塑料;金属
- X(2)X^{(2)}X(2)质量:100g;300g
- X(3)X^{(3)}X(3)体积:50cm350cm^350cm3;100cm3100cm^3100cm3
我们规定,球的颜色由其属性决定,有三种可能:红色、绿色、蓝色。那么X可以是颜色,也可以是属性(特征向量)如:材质。
X的概率分布为
P(X=xi)=pi,i=1,2,...,n(1) P(X=x_i)=p_i,i=1,2,...,n \tag 1 P(X=xi)=pi,i=1,2,...,n(1)
其中xix_ixi是X的可能取值,当X为球的颜色时,x1=red,x2=green,x3=bluex_1=red,x_2=green,x_3=bluex1=red,x2=green,x3=blue
则随机变量X的熵定义为