通常决策树的学习分为3个步骤:特征选择、决策树的生成、决策树的剪枝。
一、特征选择
首先,看一组数据,是贷款申请样本数据表,年龄,有工作,有自己的房子,信贷情况为特征,类别为是否申请成功数据。摘自李航的统计机器学习。
决策树的本质是树,对应上面具体的问题,构建树的时候,选择年龄、有工作、有自己的房子、信贷情况、他们中谁作为二叉树的第一个节点会让分类的结果准确一点。就产生了决策树的特征选择问题。ID3算法、C4.5算法、CART算法对于分类问题的区别就是特征选择的不同,ID3算法采用信息增益,C4.5算法采用信息增益比,CART算法采用基尼系数。
1.1信息增益
在介绍信息增益之前,需要了解几个概念,信息量,信息熵,条件熵。
信息量是信息多少的量度,通常一个小概率事件发生了,说明这个事件所蕴含的信息量比较多,一个大概率事件发生了,说明这个事件蕴含的信息比较少。太阳每天都从东方升起,这个几乎是必然事件,这个里面没有多少信息。但是如果说中国足球获得奥运会冠军这个事件发生了,所包含的信息就比较多了,大家就比较好奇是怎么赢得,今年怎么就获得奥运会冠军了,里面蕴含了一系列的信息。所以信息量可以定义为概率倒数,概率越大,信息量越小,概率越小,信息量越大,公式如下:
但是上面的公式涉及到分式,如果计算两个随机变量的相加会比较麻烦,我们想简化一下,所以在上面的公式上加了一个对数,这样就方便计算
而信息熵就是对一个事件信息量的期望,设X是有限个值的离散随机变量,其概率分布为:
(日狗的公式编辑器不能用,只能截图)