2.1 决策树的四种基本形态
目前主要流行的决策树包含以下四种情况
| 树名称 | 特征选择方法 | 树的分支树 | 涉及到的计算 | 节点分类 |
| ID3 | 信息增益 | 选择出的特征,每个值做一个分支 | 只要计算每个特征的信息增益 | 依次选择信息增益值最大的特征进行节点分裂 |
| C4.5 | 信息增益比 | 选择出的特征,每个值做一个分支 | 只要计算每个特征的信息增益比 | 依次选择信息增益比最大的特征进行节点分裂 |
| Cart分类树 | 基尼系数 | 二叉树 | 计算每个特征在不同阈值时的基尼系数 | 计算出基尼系数分支最高的特征和分裂节点,对当前的父节点进行分裂。下次分裂时重新计算每个特征和对应节点的基尼系数 |
| Cart回归数 | 平方误差 | 二叉树 | 计算每个特征在不同阈值时的平方误差 | 这里计算每个特征对应不同分裂点的平方误差,选择最小平方误差的特征和节点作为当前父节点的分裂,下次分类时重新计算平方误差 |
涉及到的计算公式
①信息熵
②信息增益
③信息增益比
④基尼系数
⑤平方误差
2.2 决策树两种剪枝方法(预剪枝和后剪枝)
剪枝的目的是为了降低模型的精度,减少过拟合,符合奥卡姆剃刀原理。分为预剪枝(pre-pruning)和后剪枝(post-pruning)。预剪枝是在决策树生成时限制树的生长,防止树过度生长而导致过拟合。常用方法有:限制树的深度、限制树的叶子结点数、设置分裂时增益的阈值(低于阈值就不继续分裂)。相比预剪枝,后剪枝使用更广泛。主要有:降低错误率剪枝:(Reduce-Error Pruning:REP )、悲观剪枝(Pessimistic-Error Pruning)、代价复杂度剪枝(Cost-Complexity Pruning)、基于错误的剪枝(Error-Based Pruning)
本文深入解析决策树的四种基本形态,包括ID3、C4.5、Cart分类树及回归树,探讨其特征选择方法、分支策略及计算原理。同时,文章介绍了决策树的预剪枝和后剪枝技术,以及四种常见的集成算法RF、GBDT、XGBoost和LightGBM。
433

被折叠的 条评论
为什么被折叠?



