摘要
决策树包含三个主要过程:特征选择,决策树生成,决策树剪枝。
其核心思想是计算集合无序程度,主要算法有ID3,C4.5和CART
背景知识
- 信息熵
假设变量X的可能取值为Xi,i=1,2,……,n。变量X取值为Xi的概率为:
那么随机变量X的信息熵为:
- 条件熵
变量Y在给定条件X下的信息熵:
- 信息增益
定义:特征A对训练数据集D的信息增益,g(D,A), 定义为集合D的经验熵H(D)与特征A给定条件下D的经验条件熵H(D|A)之差。
- 信息增益比
- 基尼不纯度
这里,Ck是样本集合D中属于第k类的样本子集,K是类的个数。
特征选择方法
- 信息增益(ID3)
- 信息增益比(C4.5)
- 基尼不纯度(CART)
决策树生成
- ID3 -- Quinlan, J. R. 1986. Induction of Decision Trees. Mach. Learn. 1, 1 (Mar. 1986), 81–106
- C4.5
- CART
决策树剪枝
作用:相当于优化了损失函数,引入了正则项。决策树学习过程,本质上是从训练数据集中归纳出一套分类规则
- 预剪枝
- 后剪枝
优缺点
- 优点:计算复杂度低,允许数据不进行归一化,有缺失值,并有一定的容错能力。
- 缺点:容易过拟合。由于搜索过程没有回溯,所以容易陷入局部最优。
决策树的扩展
- 处理不同代价的属性:结合特征所需代价进行特征选择,用信息增益除以特征代价。(例如医学诊断,先选择代价低的化验方式)
- 处理缺失值:按照特征值出现的概率补全数据。
例子(西瓜数据集2.0)
样本集信息熵:
参考资料:
- 统计学习方法-李航
- 机器学习-周志华
- 机器学习-Mitchell