11、决策树到随机森林及其他集成方法

决策树到随机森林及其他集成方法

1. 决策树基础

决策树是一种简单的非线性分类和回归模型,类似于二十问游戏,由一系列问题组成,用于检查测试实例。决策树的分支终止于叶子节点,这些叶子节点指定了响应变量的预测值。

1.1 特征测试与信息增益

在构建决策树时,可以选择不同的特征进行测试。例如,除了测试“plays fetch”特征,还可以测试“is grumpy”特征,或者将实例划分为喜欢猫粮和不喜欢猫粮的动物。

为了衡量哪个测试能最大程度地减少分类的不确定性,我们使用信息增益这一指标。信息增益是父节点的熵 $H(T)$ 与子节点熵的加权平均值之间的差值,计算公式如下:

信息增益的计算涉及到一些参数:
- $v$ 是实例 $x$ 的属性 $a$ 的值。
- $|T_v|$ 是属性 $a$ 等于值 $v$ 的实例数量。
- $H(T_v)$ 是特征 $a$ 的值为 $v$ 的实例子集的熵。

以下是不同测试的信息增益表:
| 测试 | 父节点熵 | 第一个子节点熵 | 第二个子节点熵 | 加权平均值 | 信息增益(IG) |
| — | — | — | — | — | — |
| plays fetch? | 0.9852 | 0.7642 | 0.7219 | 0.7490 * 9/14 + 0.7219 * 5/14 = 0.7491 | 0.2361 |
| is grumpy? | 0.9852 | 0.9183 | 0.8113 | 0.9183 * 6/14 + 0.8113 * 8/14 = 0.8571 | 0.1280 |
| f

评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符  | 博主筛选后可见
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值