接先前一节总结决策树的,还有一些问题。上节的参考:
上节主要介绍了决策树的构造方法,以及非常重要一部分是对于每个节点的特征属性是怎么选择的,这是决策树的核心。
比较原始的是基于信息熵与信息增益的方法做的,这也对应着最开始的ID3方法。为了改进ID3,出现了基于信息增益率的特征选择以及基于基尼系数的特征选择方法。对应起来就是:
(1)信息增益 -> ID3
(2)信息增益率 -> C4.5
(3)基尼指数 -> CART
- 信息增益
信息增益的做法最简单,上节主要探讨的是这种,简单来说就是几个步骤:
(1)首先计算一个未挑选属性之前,从样本分类角度来看的一个系统的信息熵。用实例假设好理解,假设100个样本,每个样本有7维特征A-G,100个样本中20个类别1,30个样本为类别2,50个为类别3,那么基于类别的系统的信息熵就是info(F) = -sum(plogp) = -20/100 * log(20/100)-30/100 * log(30/100) - 50/100*log(50/100)
(2)计算挑选一个属性后,按该属性分类完的分类系统信息熵。假设以A属性划分,划分完可以分为两半,假设一半40个样本(10个类1,10个类2,20个类3),另一半60个样本(10个类1,20个类2,30个类3),那么从类别角度来看系统的信息熵为:info(F|A) = -(sum(组1) +sum(组2)) = -([10/40 * log(10/40) + 10/40 * log(10/40) + 20/40 * log(20/40)] + [10/60 * log(10/60) + 20/60 * log(20/60) + 30/60 * log(30/60)]), info(F|A)此为A划分条件下的信息熵.
(3)A属性信息增益为 g(F,A) =(info(F) - info(F|A))