决策树即用树结构(实际也可认为是if-then规则集合)来做分类与回归的方法。以下主要讨论的是分类问题。其分类方法是递归地选择最优特征,并根据该特征对训练数据进行分割,使得对于各个子数据有一个最好的分类过程。对应过程是特征空间划分和决策树生成,构建好的决策树很可能是发生过拟合的,因此需要对其自下而上剪枝,使树更简单,具有更好的泛化能力。由此决策树学习方法分三步:特征选择生成决策树
决策树的修剪。
一、特征选择
一般来说对于要分类的每条数据应该是具有多个特征的。那么对于分类来说就会存在这样一个问题,选择哪些特征来作为分类依据。直观上说,如果一个特征对于分类有良好的区分能力,即按这特征将训练数据分割成子集使得各个子集在当前条件下有最好的分类那么就应该选择该特征。为此我们引入了信息熵和信息增益的概念。
信息熵:即用来衡量随机变量不确定性的程度。换言之,X是一个取有限值的离散随机变量,概率分布为则随机变量X的熵定义成
log是以e或2为底的对数,这时熵的单位对应纳特(nat)或比特(bit).易知熵的值只与分布有关而与X本身的值无关,因此熵也记作H(p). X随机性越大,其熵就越大。且.
条件熵:随机变量(X,Y),联合概率分布为
条件熵的计算
而信息增益是要反映信息熵的变化情况,对于训练数据集D的信息增益表示的是当已知条件A时,此时在D上的熵的变化。即集合D的经验熵和特征A给定的条件下D的经验条件熵H(D|A)之差,即
而这种作差的情形称为互信息,这里也是训练数据和特征的互信息。显然要计算信息增益需依赖特征,不同特征的信息增益往往不同,信息增益较大的特征(比如极端情形,一旦确定该条件,结论几乎就板上定钉)具有更强的分类能力。因此在选择特征的方法便是对训练数据集计算每个特征的信息增益,比较其大小,选择增益最大的特征。
信息增益算法
已知:对于训练数据集D,|D|表示D样本数量。
设D中有K个类,第k类表示成。|
|表示第k类样本数量。所有类样本总量等于|D|。
设特征A有n个不同的取值,根据每个不同的取值可将D划分成n个集合,即,第i个集合样本数即
。
子集中属于第k类的集合表示成
,同理集合样本数量表示成
。
(1)计算数据集D经验熵H(D)
(2)计算特征A对数据集D经验条件H(D|A)
(3)计算信息增益
值得一提的是单纯利用信息增益作为划分训练集特征的办法,存在偏向选择取值较多的特征的问题。因此引入信息增益比()予以校正,于是存在另一种准则:使用特征A对训练数据集D的信息增益与训练数据集D关于特征A的值的熵
之比:
其中,
二、决策树生成
ID3算法
(1)如果D中所有实例都属于同一类,则该结点标记为
;
(2)如果此时,或信息增益均小于阈值则将D中结点实例最多那类标记为该结点类别;
(3)对D中各特征(信息增益算法)计算特征的信息增益,选择信息增益最大的特征作为结点特征,并根据特征不同取值构建子结点。
(4)否则对于的每个特征值
,按照
将D分割成若干非空子集
,每一集合根据其实例最多的类别标记该集合对应的结点的类别。
(5)对第i个结点,以为训练集,
为特征集,对子结点递归地调用(1)~(5),不断返回子树
,构建决策树。
易见,ID3算法只有树生成,所以该算法生成的树容易过拟合。很容易联系到如果选择用信息增益比来选择特征,必然过拟合的问题将得到改善,这便是C4.5算法,只需将ID3中用到信息增益地方改成信息增益比即可。
三、决策树剪枝
为了解决在训练时造成的过拟合,即在训练时过多考虑如何提高训练准确率,导致构造的树过于复杂,而实际验证分类并不理想。因此需要对生成的树简化,即剪枝,从已生成的决策树中裁掉一些子树或叶结点,并将其父结点或根结点作为新的叶结点。这里借助极小化决策树整体的损失函数或代价函数实现。具体损失函数表示成:
其中,T代表树结点结合|T|即取结点数目反映树复杂程度。T的叶结点t有个样本,其中k类的样本点有
个。
即结点t上的经验熵。
为学习参数,
越大,促使选择的模型越简单,反之,
越小,则促使最后选择的模型越复杂。显然
=0时,则不考虑模型的复杂度,只考虑模型的拟合程度。由此对于给定的
,选择损失最小的模型即可得到损失最小的子树。
树的剪枝算法
(1)计算每个结点的经验熵。
(2)递归地从树的叶结点向上缩。计算回缩之后的整体树对应的损失和回缩前的损失
,如果
则进行剪枝。即将父结点变为新的叶结点。
(3)返回(2),直至不能继续为止,得到损失函数最小的子树。
CART算法
CART算法时在给定输入随机变量X条件下输出随机变量Y的条件概率分布的学习方法。
1、回归树生成,利用平方误差最小化准则进行特征选择,最小二乘回归树??生成算法得到回归树。
2、分类树的生成,利用基尼指数最小化准则,CART生成算法和CART剪枝,最终得到决策树。
对于基尼指数表达的意义跟熵很近似,计算要稍微简单些:
Gini(D)表示集合D的不确定性,其基尼指数为 (k即D中数据的类别):
如果对于样本集D根据特征A关于是否取a值这一点作为划分D依据,最后得到的数据集为,
两部分。则在特征A条件下的D基尼指数定义成:
CART生成算法
(1)设结点的训练集为D,计算现有特征取尽所有可能值的基尼指数。
(2)对于所有的特征A及其可能取得所有值中选择基尼指数最小得特征及其对应的特征值作为最优特征和切分点,现将数据分成集合即两个子结点。
(3)对两个结点递归地调用上述两步,直至满足条件停止。
(4)生成CART决策树。
CART剪枝算法
(1)
(2)
(3)自下而上的各内部结点t计算,
,以及
表示以
为根结点的子树,
即训练数据的预测误差,
即该子树结点数目。
(4)的内部结点t进行剪枝,并对叶结点t以多数 表决法决定其类。
(5)k=k+1,
(6)如果不是根结点及两个叶结点构成的树,则转步骤(3),否则
。
(7)采用交叉验证法(独立验证数据集测试子树序列中各子树的基尼指数)在子树序列中选择最优子树
。