决策树到随机森林及其他集成方法
1. 决策树基础
决策树是一种简单的非线性分类和回归模型,类似于二十问游戏,由一系列问题组成,用于检查测试实例。决策树的分支终止于叶子节点,这些叶子节点指定了响应变量的预测值。
1.1 特征测试与信息增益
在构建决策树时,可以选择不同的特征进行测试。例如,除了测试“plays fetch”特征,还可以测试“is grumpy”特征,或者将实例划分为喜欢猫粮和不喜欢猫粮的动物。
为了衡量哪个测试能最大程度地减少分类的不确定性,我们使用信息增益这一指标。信息增益是父节点的熵 $H(T)$ 与子节点熵的加权平均值之间的差值,计算公式如下:
信息增益的计算涉及到一些参数:
- $v$ 是实例 $x$ 的属性 $a$ 的值。
- $|T_v|$ 是属性 $a$ 等于值 $v$ 的实例数量。
- $H(T_v)$ 是特征 $a$ 的值为 $v$ 的实例子集的熵。
以下是不同测试的信息增益表:
| 测试 | 父节点熵 | 第一个子节点熵 | 第二个子节点熵 | 加权平均值 | 信息增益(IG) |
| — | — | — | — | — | — |
| plays fetch? | 0.9852 | 0.7642 | 0.7219 | 0.7490 * 9/14 + 0.7219 * 5/14 = 0.7491 | 0.2361 |
| is grumpy? | 0.9852 | 0.9183 | 0.8113 | 0.9183 * 6/14 + 0.8113 * 8/14 = 0.8571 | 0.1280 |
| f
超级会员免费看
订阅专栏 解锁全文

被折叠的 条评论
为什么被折叠?



