【周志华机器学习】西瓜书吃瓜教程学习笔记总结Task03

JM-Xia

已于 2022-08-28 19:12:50 修改

阅读量470

点赞数

分类专栏：【周志华机器学习】西瓜书吃瓜教程学习笔记总结文章标签：机器学习学习决策树

于 2022-08-25 14:04:05 首次发布

本文链接：https://blog.youkuaiyun.com/m0_57491311/article/details/126493332

版权

【周志华机器学习】西瓜书吃瓜教程学习笔记总结专栏收录该内容

5 篇文章

订阅专栏

第四章决策树

4.1 基本流程

决策树的生成是一个递归过程：

4.2 划分选择

关键在于从A中选择最优划分属性a*使结点的“纯度”purity越高

信息熵 information entropy：度量样本集合纯度最常用的一种指标。

假定当前样本集合中第k 类样本所占的比例为也(k = 1,2,… ， $\left | y \right |$ ) , 则 D 的信息嫡定义为

Ent(D)的值越小，则D的纯度越高.

信息增益 information gain：a* = argmaxGain (P,a）属性a 对样本集D 进行划分所获得的

但信息增益准则对可取值数目较多的属性有所偏好，故使用如下来选择最优划分属性。

增益率 gain ratio：

其中属性 a 的固有值 intrinsic value：

C4.5决策树算法：先从候选划分属性中找出信息增益高于平均水平的属性，再从中选择增益率最高的

CART决策树：使用 “基尼指数 "(Gini index)来选择划分属性，选择那个使得划分后基尼指数最小的属性作为最优划分属性，即 a* = arg min Gini_index(P, a).

基尼指数Gini(D)：反映了从数据集 D 中随机抽取两个样本，其类别标记不一致的概率

4.3 剪枝处理

剪枝 (pruning) 是决策树学习算法对付“过拟合”的主要手段，决策树剪枝的基本策略有预剪枝prepruning 和后剪枝post- pruning

预剪枝prepruning: 指在决策树生成过程中，对每个结点在划分前先进行估计，若当前结点的划分不能带来决策树泛化性能提升，则停止划分并将当前结点标记为叶结点。

后剪枝post- pruning: 先从训练集生成一棵完整的决策树, 然后自底向上地对非叶结点进行考察，若将该结点对应的子树替换为叶结点能80带来决策树泛化性能提升，则将该子树替换为叶结点。

一般情形下，后剪枝决策树的欠拟合风险很小，泛化性能往往优于预剪枝决策树，但训练时间开销就会远大于未剪枝和预剪枝。

4.4 连续与缺失值

二分法(bi-partition)对连续属性进行处理，对连续属性见我们可考察包含n - 1 个元素的候选划分点集即把区间依看 $\left [a^{i},a^{i+1} \right )$ 的中位点作为候选划分点,然后就可像离散属性值一样来考察这些划分点

Q:(1) 如何在属性值缺失的情况下进行划分属性选择?

给定训练集D 和属性血令 $\widetilde{D}$ 表示 D 中在属性a 上没有缺失值的样本子集,显然我们仅可根据 $\widetilde{D}$ 来判断属性a的优劣,每个样本x出赋予一个权重 $w_{x}$ ,并定义

得信息增益的计算式：

Q:(2)给定划分属性，若样本在该属性上的值缺失,如何对样本进行划分？

若样本x在划分属性a 上的取值已知，则将x划入与其取值对应的子结点，且样本权值在子结点中保持为 $w_{x}$ .若样本x在划分属性a上的取值未知，则将x 同时划入所有子结点，且样本权值在与属性值 $a^{v}$ 对应的子结点中调整为 $\widetilde{^{r_{v}}} \cdot ^{w_{x}}$ 直观地看，这就是让同一个样本以不同的概率划入到不同的子结点中去.

4.5 多变量决策树

决策树所形成的分类边界有一个明显的特点: 轴平行(axis-parallel),即它的分类边界由若干个与坐标轴平行的分段组成。

“多变量决策树"multivariate decision tree：能实现这样的“斜划分”甚至更复杂划分的决策树.以实现斜划分的多变量决策树为例，在此类决策树中，非叶结点不再是仅对某个属性,而是对属性的线性组合进行测试，即每个非叶结点是一个形如 $\sum_{i=1}^{d}\omega _{i}a_{i}=t$ 的线性分类器。