决策树的构建与属性信息度量
1. 决策树的归纳
决策树的归纳可以从一个简单粗糙的算法开始。当将其应用于训练集时,会发现能得到各种各样不同的决策树。经过简单讨论可知,在这些决策树中,较小的树通常更受青睐。这一发现促使我们对技术进行改进,为后续内容奠定基础。
1.1 分治法构建决策树
我们可以手动尝试创建决策树。假设根节点测试“形状(shape)”属性的值,在训练集中,该属性有三种不同结果:圆形、三角形和正方形。对于每种结果,分类器需要从根节点引出一条单独的边。
- 当形状为圆形时,对应的示例集合为 (T_C = {e1, e2, e8})。
- 当形状为三角形时,对应的示例集合为 (T_T = {e4})。
- 当形状为正方形时,对应的示例集合为 (T_S = {e3, e5, e6, e7})。
这三条边从根节点出发,终止于另一个节点,该节点可以是属性测试节点或包含类标签的叶子节点。由于 (T_C) 中的所有示例都是正例,所以这条边指向一个标记为“pos”的叶子节点;同理,(T_T) 对应的边指向标记为“neg”的叶子节点。而 (T_S) 是正负例的混合集合,需要在这条边的末端进行另一个测试,例如“填充大小(filling - size)”。该属性有“小”和“大”两个值,将 (T_S) 分为两个子集:
- (T_{S - S} = {e3, e6}),填充大小为“小”,所有示例为正例。
- (T_{S - B} = {e5, e7}),填充大小为“大”,所有示例为负例。
此时,这两条边都可以指向叶子节点,分别标记为“pos”和“neg”。至此,树的构建过程可以停止,因为每个训练示例都能到
超级会员免费看
订阅专栏 解锁全文
1150

被折叠的 条评论
为什么被折叠?



