机器学习【算法岗面试总结2】----树模型

最新推荐文章于 2025-02-16 09:45:00 发布

原创最新推荐文章于 2025-02-16 09:45:00 发布 · 385 阅读

0 ·

CC 4.0 BY-SA版权

算法整理专栏收录该内容

3 篇文章

订阅专栏

本文深入解析决策树的四种基本形态，包括ID3、C4.5、Cart分类树及回归树，探讨其特征选择方法、分支策略及计算原理。同时，文章介绍了决策树的预剪枝和后剪枝技术，以及四种常见的集成算法RF、GBDT、XGBoost和LightGBM。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

2.1 决策树的四种基本形态

目前主要流行的决策树包含以下四种情况

树名称	特征选择方法	树的分支树	涉及到的计算	节点分类
ID3	信息增益	选择出的特征，每个值做一个分支	只要计算每个特征的信息增益	依次选择信息增益值最大的特征进行节点分裂
C4.5	信息增益比	选择出的特征，每个值做一个分支	只要计算每个特征的信息增益比	依次选择信息增益比最大的特征进行节点分裂
Cart分类树	基尼系数	二叉树	计算每个特征在不同阈值时的基尼系数	计算出基尼系数分支最高的特征和分裂节点，对当前的父节点进行分裂。下次分裂时重新计算每个特征和对应节点的基尼系数
Cart回归数	平方误差	二叉树	计算每个特征在不同阈值时的平方误差	这里计算每个特征对应不同分裂点的平方误差，选择最小平方误差的特征和节点作为当前父节点的分裂，下次分类时重新计算平方误差

涉及到的计算公式

①信息熵

②信息增益

③信息增益比

④基尼系数

⑤平方误差

2.2 决策树两种剪枝方法（预剪枝和后剪枝）

剪枝的目的是为了降低模型的精度，减少过拟合，符合奥卡姆剃刀原理。分为预剪枝（pre-pruning）和后剪枝（post-pruning）。预剪枝是在决策树生成时限制树的生长，防止树过度生长而导致过拟合。常用方法有：限制树的深度、限制树的叶子结点数、设置分裂时增益的阈值（低于阈值就不继续分裂）。相比预剪枝，后剪枝使用更广泛。主要有：降低错误率剪枝：(Reduce-Error Pruning：REP )、悲观剪枝(Pessimistic-Error Pruning)、代价复杂度剪枝(Cost-Complexity Pruning)、基于错误的剪枝(Error-Based Pruning)