分类与回归树技术详解
1. 引言
在数据分析与机器学习领域,分类与回归树是非常重要的工具。通过构建树模型,我们能够对数据进行分类和回归预测。本文将详细介绍分类与回归树的相关技术,包括决策树的优化、随机森林以及梯度提升等方法,并通过实际案例展示这些技术的应用。
2. 决策树优化
在决策树的构建过程中,我们可以通过一些方法来优化模型。例如,通过对替代误差率进行分割,可以改善模型的杂质度。以一个具体例子来说,创建节点 N1 有 3 个来自类 1 的观测值和 0 个来自类 2 的观测值,节点 N2 有 4 个来自类 1 的观测值和 3 个来自类 2 的观测值。此时,该树分支的总体误分类率仍为 30%,但总体基尼指数得到了改善:
- (Gini(N1) = 1 - (3/3)^2 - (0/3)^2 = 0)
- (Gini(N2) = 1 - (4/7)^2 - (3/7)^2 = 0.49)
- 新的基尼指数 = ((N1 的比例 \times Gini(N1)) + (N2 的比例 \times Gini(N2)) = (0.3 \times 0) + (0.7 \times 0.49) = 0.343)
通过这种分割,我们将模型杂质度从 0.42 降低到了 0.343,而误分类率并未改变。这就是 rpart() 包所使用的方法。
3. 随机森林
随机森林是一种强大的集成学习方法,它通过结合多个决策树来提高模型的预测能力。随机森林在模型开发中应用了两个技巧:
- 自助聚合(Bagging) :在 Bagging 中,每个决策树是基于数据集的
超级会员免费看
订阅专栏 解锁全文
2278

被折叠的 条评论
为什么被折叠?



