11、分类与回归树技术详解

分类与回归树技术详解

1. 引言

在数据分析与机器学习领域,分类与回归树是非常重要的工具。通过构建树模型,我们能够对数据进行分类和回归预测。本文将详细介绍分类与回归树的相关技术,包括决策树的优化、随机森林以及梯度提升等方法,并通过实际案例展示这些技术的应用。

2. 决策树优化

在决策树的构建过程中,我们可以通过一些方法来优化模型。例如,通过对替代误差率进行分割,可以改善模型的杂质度。以一个具体例子来说,创建节点 N1 有 3 个来自类 1 的观测值和 0 个来自类 2 的观测值,节点 N2 有 4 个来自类 1 的观测值和 3 个来自类 2 的观测值。此时,该树分支的总体误分类率仍为 30%,但总体基尼指数得到了改善:
- (Gini(N1) = 1 - (3/3)^2 - (0/3)^2 = 0)
- (Gini(N2) = 1 - (4/7)^2 - (3/7)^2 = 0.49)
- 新的基尼指数 = ((N1 的比例 \times Gini(N1)) + (N2 的比例 \times Gini(N2)) = (0.3 \times 0) + (0.7 \times 0.49) = 0.343)

通过这种分割,我们将模型杂质度从 0.42 降低到了 0.343,而误分类率并未改变。这就是 rpart() 包所使用的方法。

3. 随机森林

随机森林是一种强大的集成学习方法,它通过结合多个决策树来提高模型的预测能力。随机森林在模型开发中应用了两个技巧:
- 自助聚合(Bagging) :在 Bagging 中,每个决策树是基于数据集的

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值