13、决策树的构建与属性信息度量

最新推荐文章于 2026-01-07 16:00:17 发布

原创最新推荐文章于 2026-01-07 16:00:17 发布 · 23 阅读

0 ·

CC 4.0 BY-SA版权

文章标签：

#决策树 #分治法 #信息增益

机器学习入门指南专栏收录该内容

31 篇文章 ¥499.90

订阅专栏¥69.90

会员秒杀 ¥9.9 重磅福利

超级会员免费看

决策树的构建与属性信息度量

1. 决策树的归纳

决策树的归纳可以从一个简单粗糙的算法开始。当将其应用于训练集时，会发现能得到各种各样不同的决策树。经过简单讨论可知，在这些决策树中，较小的树通常更受青睐。这一发现促使我们对技术进行改进，为后续内容奠定基础。

1.1 分治法构建决策树

我们可以手动尝试创建决策树。假设根节点测试“形状（shape）”属性的值，在训练集中，该属性有三种不同结果：圆形、三角形和正方形。对于每种结果，分类器需要从根节点引出一条单独的边。
- 当形状为圆形时，对应的示例集合为 (T_C = {e1, e2, e8})。
- 当形状为三角形时，对应的示例集合为 (T_T = {e4})。
- 当形状为正方形时，对应的示例集合为 (T_S = {e3, e5, e6, e7})。

这三条边从根节点出发，终止于另一个节点，该节点可以是属性测试节点或包含类标签的叶子节点。由于 (T_C) 中的所有示例都是正例，所以这条边指向一个标记为“pos”的叶子节点；同理，(T_T) 对应的边指向标记为“neg”的叶子节点。而 (T_S) 是正负例的混合集合，需要在这条边的末端进行另一个测试，例如“填充大小（filling - size）”。该属性有“小”和“大”两个值，将 (T_S) 分为两个子集：
- (T_{S - S} = {e3, e6})，填充大小为“小”，所有示例为正例。
- (T_{S - B} = {e5, e7})，填充大小为“大”，所有示例为负例。

此时，这两条边都可以指向叶子节点，分别标记为“pos”和“neg”。至此，树的构建过程可以停止，因为每个训练示例都能到