文章目录
本文重点内容
- 什么是决策树
- 决策树的基本原理
- 决策树训练方法,防止过拟合的方法
- 分类和回归决策树筛选原则
一. 决策树基本原理
1. 定义
分类决策树模型是一种描述对实例进行分类的树形结构。决策树由节点和有向边组成。其中节点有两种类型:内部节点和叶节点。内部节点表示一个特征或属性,叶结点表示一个类,结构如下图:
2. 表示成条件概率
决策树还可以表示成在给定条件下类的条件概率分布。
决策树将特征空间划分为会不相交的单元,在每个单元定义一个类的概率分布,这就构成了一个条件概率分布。
条件概率计算方式:
- 概率分布计算:由各个单元给定条件下类的条件概率分布组成,将这些概率沿着分支相乘,即得出所需的概率。
极大似然函数:损失函数的优化。
二. 决策树的训练算法
决策树学习算法通常是递归的原则最优特征,根据该特征对训练数据进行分割:即特征空间的分割。
决策树的结构收到很多因素影响:特征选择、分裂点选择、树的深度、复杂度控制、剪枝等。
1. 划分选择的算法
特征选择:在每个节点上,如何选择一个特征进行分裂,常用的特征选择指标有:信息增益、信息增益率,以及基尼指数:ID3、C4.5、CART的等决策树算法。
1.1. 信息增益(ID3 算法)
信息熵的定义与计算
信息增益的计算
信息增益:衡量了信息对数据集分类结果的贡献度。
在构建决策树时,ID3 算法选择信息增益最大的特征作为当前节点的划分特征。
例如,在一个判断水果是苹果还是橙子的决策树中,有颜色、形状等特征,通过计算这些特征的信息增益,若颜色特征的信息增益最大,那么就先根据颜色来划分节点。
1.2. 信息增益比(C4.5 算法)
信息增益比的引入原因:
- 信息增益存在一个问题,它偏向于选择取值较多的特征。为了克服这个问题,C4.5 算法引入了信息增益比。
- 在决策树构建过程中,C4.5 算法选择信息增益比最大的特征作为划分特征。例如,在一个包含很多特征的数据集里,有些特征虽然信息增益较大,但它可能有过多的取值,通过计算信息增益比,可以更合理地选择划分特征。
1.3. 基尼指数(CART 算法)
基尼指数的含义:
基尼指数用于衡量数据集的纯度,其值越小表示纯度越高。
例如,在客户流失预测的决策树中,基尼不纯度可以帮助我们了解每个节点中客户流失(或不流失)的纯度情况。如果一个节点的基尼不纯度很高,说明这个节点中的客户在流失与否的分类上很混乱,需要进一步划分来提高纯度。
基尼指数的作用:划分特征。
对于每个候选特征,计算按照该特征划分后的基尼指数,选择使得基尼指数最小的特征作为划分特