决策树的构建与属性信息度量
1. 决策树的归纳
决策树的归纳可以从一个简单粗糙的算法开始。当将其应用于训练集时,会发现可以得到各种各样不同的决策树。通过简单讨论可知,在这些决策树中,较小的决策树通常更受青睐,这也促使我们对技术进行改进。
1.1 分治法构建决策树
我们可以手动尝试创建一个决策树。假设根节点测试形状(shape)的值,在训练集中,形状有三种不同结果:圆形(circle)、三角形(triangle)和正方形(square)。对于每种形状,分类器需要从根节点引出一条单独的边。
- 形状为圆形时,对应的例子集合为 (T_C = {e1, e2, e8})。
- 形状为三角形时,对应的例子集合为 (T_T = {e4})。
- 形状为正方形时,对应的例子集合为 (T_S = {e3, e5, e6, e7})。
这三条边从根节点开始,终止于另一个节点,该节点可以是属性测试节点或包含类标签的叶子节点。由于 (T_C) 中的所有例子都是正例,所以这条边指向一个标记为“pos”的叶子节点;同理,(T_T) 对应的边指向标记为“neg”的叶子节点。而对于 (T_S),它包含了正负两类例子,需要在这条边的末端进行另一个测试,比如填充大小(filling - size)。填充大小有“small”和“big”两个值,将 (T_S) 分为两个子集:
- (T_{S - S} = {e3, e6}),填充大小为“small”,所有例子为正例。
- (T_{S - B} = {e5, e7}),填充大小为“big”,所有例子为负例。
这样,这两条边分别指向标记为“pos”和“neg”的叶子节点,此时树
超级会员免费看
订阅专栏 解锁全文
5万+

被折叠的 条评论
为什么被折叠?



