机器学习总结一：Bagging之决策树、随机森林原理与案例

原创

已于 2022-11-14 08:34:31 修改 · 1k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#决策树 #随机森林

于 2022-10-18 17:51:44 首次发布

本文详细介绍了决策树的原理，包括信息增益、信息增益率和基尼系数的选择，以及随机森林的原理和参数调优。通过Titanic数据集实例演示了决策树和随机森林在生存预测中的应用，对比了两者在模型性能和稳定性上的差异。

机器学习算法总结

一、Bagging之决策树、随机森林原理与案例

二、boosting之GBDT、XGBT原理推导与案例

三、SVM原理推导与案例

四、逻辑回归与反欺诈检测案例

五、聚类之K-means

一、Bagging之决策树、随机森林原理与案例

1. 决策树

1.1 简介

决策树(Decision Tree)是一种非参数的有监督学习方法，它能够从一系列有特征和标签的数据种总结出决策规则，并利用树状图结构呈现这些规则，以解决分类和回归问题。
决策树算法研究核心内容：
- 如何从数据集中找出最佳分支点
- 如何让决策树停止生长，防止过拟合

1.2 分支原理

使用“贪心策略”，通过每一次局部分裂最优，接近全局最优树
分类树
1. 预测结果 = 叶子节点上少数服从多数
2. 不纯度：用于衡量最佳分枝的指标，分裂后的不纯度越低越好。
3. 不纯度计算
  - 信息增益(ID3)
    $\begin{array}{l} 1.信息量定义f(i):=-log_2P_i\\ 2.信息熵：Entropy(t)=\sum_{i=1}^cp_i(-log_2p_i)\\ \quad 注：某一类别比例*其类别所对应的信息量（相当于整个概率模型系统期望/加权求和，范围[0,1]）\\ \\3.信息增益 = 父节点信息熵 - 对应所有子节点信息熵加权平均\\ \quad InformationGain = Entropy(父节点) - \sum_{t=1}^T\frac{N_t}{N}Entropy(子节点)\\ \quad T: 父节点分裂后子节点个数； \frac{N_t}{N}: 分裂后t节点上的样本数/样本总数(即分裂前父节点样本数)\\ \\ ID3算法缺点：\\ \quad \quad 分支度越高的离散变量往往子节点总信息熵越小(比如训练集中ID字段，分支，每个id分裂后对应的子节点不纯度都为0)\\ \quad \quad 缺失值和连续值不能处理\\ \quad \quad 没有剪枝操作，容易过拟合 \end{array}$
  - 信息增益率(C4.5)
    $\begin{array}{l} 1.目的：修正信息增益对分支度高的特征的偏好\\ 2.信息增益率:gainratio=\frac{InformationGain}{InformationValue}（使用分支度对信息增益偏好分支度高的特征进行惩罚）\\ 3.分支度(IV:Information Value):\\ \quad Information Value = -\sum_{i=1}^kp(v_i)log_2p(v_i)\\ \quad i:表示父节点的第i个子节点；v_i:第i个子节点的样本数；p(v_i):第i个子节点的样本数占父节点样本数\\ \quad 相当于衡量整个分裂情况的信息熵，分支度越高，分裂越多，IV值越大，对信息增益惩罚就越大。 \\ \\ C4.5算法：\\ \quad 使用分支度对信息增益偏好分支度高的特征进行惩罚\\ \quad 增加了对连续变量的处理，对连续列从小到大排序，若连续变量有N个值，c4.5中产生N-1个备选切分点，每一个切分点都代表一种二叉树的切分方案。 \end{array}$

最低0.47元/天解锁文章