1.特征选择
-
特征选择在于选取对训练数据具有分类能力的特征。这样可以提高决策树学习的效率,如果利用一个特征进行分类的结果与随机分类的结果没有很大差别,则称这个特征是没有分类能力的。经验上扔掉这样的特征对决策树学习的精度影响不大。通常特征选择的标准是信息增益(information gain)或信息增益比
-
以下表为例
-
特征选择就是决定用哪个特征来划分特征空间。比如,我们通过上述数据表得到两个可能的决策树,分别由两个不同特征的根结点构成。
-
事实上我们可以通过表中数据得到:年龄、有工作、有自己房子、信贷情况共四个特征决定是否给贷款。那么问题在于,哪个特征的决定性更强?下面引入信息熵及信息增益的概念。
1.1熵
-
熵的定义式如下:
-
但上图中只计算一种情况下的熵,我们实例中通常有多种结果。我们上面的例子就是存在给贷款和不给贷款两种结果,因此上式推广得到多种结果求熵的公式如下:
-
那么上述例子中15个结果中,9个给贷款,6个不给贷款,则求该例子中的熵如下:
1.2信息增益
-
在了解信息增益前,需要了解一个概念:条件熵。
条件熵H(Y|X)表示在已知随机变量X的条件下随机变量Y的不确定性,随机变量X给定的条件下随机变量Y的条件熵(conditional entropy)H(Y|X),定义为X给定条件下Y的条件概率分布的熵对X的数学期望:
-
我们get到熵和条件熵的概念,这时候引入信息增益
信息增益是相对于特征而言的。所以,特征A对训练数据集D的信息增益g(D,A),定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差,即:
-
我们仍