决策树(decision tree)是一种基本的分类与回归方法
——用于分类的决策树
决策树模型呈树形结构,在分类问题中,表示基于特征对实例进行分类的过程
可以被认为是if-then规则的集合,也可以是定义在特征空间与类空间上的条件概率分布
——损失函数最小化原则
步骤:特征选择、决策树的生成、决策树的剪枝
Quinlan在1986年提出的ID3算法和1993年提出的C4.5算法,Breiman等人在1984年提出的CART算法
决策树模型
决策树由结点和有向边组成
结点由内部结点(特征和属性)和叶结点(类)组成
决策树与条件概率分布
决策树学习
决策树学习用损失函数表示这一目标——通常是正则化的极大似然函数
损失函数确定后,学习问题转为损失函数意义下选择最优决策树
——从所有可能的决策树中选取最优决策树是NP完全问题,所以通常用启发式方法,近似求解,得到次最优解
一种方法
构建根结点,所有训练数据嚷道根结点
选择一个<strong>最优特征</strong>
根据特征分割训练数据为不同子集——当前最好分类
if 子集基本分类,then构造叶结点
if not <strong>重选特征</strong>继续分割
递归
生成决策树<em>
</em>
以上方法生成决策树对训练数据有很好分类能力,但对未知数据可能发生 过拟合现象— —预测能力
所以需要自下而上剪枝,让树更简单,从而增强泛化能力——去掉过于细分的结点,回退父结点
如果特征数量过多,开始对特征进行选择
算法包括:特征选择、决策树的生成、决策树的剪枝
——决策树生成考虑局部最优,剪枝考虑全局最优
特征选择
信息熵
信息熵是随机变量的期望。度量信息的不确定程度。
信息的熵越大,信息就越不容易搞清楚。处理信息就是
为了把信息搞清楚,就是熵减少的过程。
Entropy(X) = -Sum(p(xi) * log(p(xi))) {i: 0 <= i <= n}
p(x)是概率密度函数;对数是以2为底;
信息增益
用于度量属性A降低样本集合X熵的贡献大小。信息增益
越大,越适于对X分类。