注:本文只是本人阅读西瓜书及南瓜书的阅读笔记和心得,可能只有自己能看懂,鉴于本人水平有限,有极大可能出现错误,欢迎读者批评指正
决策树的学习通常包括3个部分:特征选择、决策树的生成、决策树的修剪
1、信息增益
自信息:
自信息期望: 离散情况
连续情况
信息熵(information entroy) :
信息熵就是自信息的期望,Ent(D)的值越小,D的纯度就越高,对于结果的预测准确性就越大。
信息增益(information gain):
其中 Ent(D)表示样本集整体的信息熵,表示D中的一个子集a上对该属性的不同取值(其值取1,2,...V),
表示该子集的信息熵。
信息增益越大,意味着使用属性a来进行划分所获得的“纯度提升最大”
2、增益率
,
其中
由于信息增益中的会使得最终提纯的结果会对可取值数目较多的属性有所偏好,为了减少这种偏好所带来的影响,使用的增益率来选择最优化分属性
3、基尼系数(Gini index)
基尼系数反应了从数据集D中随机抽取两个样本,其类别标记不一致的概率。其值越小,纯度越高
4、剪枝处理
剪枝处理是为了防止过拟合而采取的一种手段,其基本策略包括“预剪枝”和“后剪枝”。
预剪枝(prepruning):
指在决策树生成的过程中,对每个节点在划分前先进行预估,若当前节点不能带来决策树泛华性能上的提升,则停止划分并将当前节点标记为叶节点
后剪枝(postpruning):
指先从训练集生成一颗完整的决策树,然后自底向上地对非叶子节点进行考察,若将该节点对应地子树替换为叶节点能带来决策树泛化性能提升,则将该子树替换为叶节点。
后剪枝决策树通常比预剪枝决策树保留了更多的分支。一般情况下,后剪枝决策树的欠拟合风险较小,泛化性能往往优于预剪枝决策树。但是后剪枝决策树的开销更大。
(后续更新。。。)