决策树与最近邻算法:原理、分析与实践
1. 决策树简介
决策树是一种预测器 (h : X →Y),通过从树的根节点到叶节点的遍历,预测与实例 (x) 相关的标签。为简化起见,我们主要关注二分类问题,即 (Y = {0, 1}),不过决策树也可应用于其他预测问题。在根到叶的路径上的每个节点,根据输入空间的划分选择后续子节点。通常,这种划分基于 (x) 的某个特征或预定义的划分规则。叶节点包含特定的标签。
1.1 示例:木瓜决策树
以木瓜为例,决策树首先检查木瓜的颜色。如果颜色不在浅绿到浅黄色的范围内,树会立即预测木瓜不好吃,无需额外测试。否则,树会检查木瓜的软度。如果木瓜的软度使得它在手掌压力下稍有凹陷,决策树预测木瓜好吃;否则,预测为“不好吃”。这个例子凸显了决策树的一个主要优点——得到的分类器非常容易理解和解释。
1.2 样本复杂度
树的内部节点常用的划分规则基于对单个特征的值进行阈值处理。即根据 (1[xi<θ]) 决定移动到节点的右子节点还是左子节点,其中 (i ∈[d]) 是相关特征的索引,(θ ∈R) 是阈值。在这种情况下,决策树可以看作是将实例空间 (X = Rd) 划分为多个单元格,树的每个叶节点对应一个单元格。因此,具有 (k) 个叶节点的树可以打散一组 (k) 个实例。如果允许任意大小的决策树,我们会得到一个具有无限 VC 维的假设类,这种方法容易导致过拟合。
为避免过拟合,我们可以依靠最小描述长度(MDL)原则,目标是学习一个既能很好地拟合数据,又不会太大的决策树。为简化分析,假设 (X = {0, 1}d),即每个实例是一个 (d) 位的向量。在这种情况下,对单个特征的值进行阈值处理对
超级会员免费看
订阅专栏 解锁全文
2万+

被折叠的 条评论
为什么被折叠?



